한 스레드, 또는 한 warp 안에서 서로 의존하지 않는 연산을 동시에 파이프라인에 태우는 능력
GPU 는 기본적으로
각 warp 에 대해 시계틱하게 명령을 하나씩 발행하지만
내부 파이프라인은 딥하게 여러 스테이지로 나뉘어 있고
이전 연산의 결과가 필요 없는 새 연산은 결과 기다리는 동안 미리 다음 스테이지에 태울 ㅜㅅ 있다.
즉
의존성이 긴 단일 체인이 있으면 계속 대기 필요
독립적인 연산 여러 개를 동시에 돌리면 - 기다리는 동안 다른 연산들을 파이프라인에 채워 넣을 수 있음
ILP vs Occupancy 관계
둘 다 레이턴시 숨기는 기술
occupancy - 레이턴시가 생기면 다른 warp 로 갈아타기
ILP - 같은 warp 안에서 다른 독립 연산을 먼저 실행해버리기
'GPU-KERNEL' 카테고리의 다른 글
| GEMM: Naive vs Shared-Memory Tiled 성능 비교 (간단 정리) (0) | 2025.11.18 |
|---|---|
| GEMM 커널 테스트 코드 작성 및 최적화 (1024^3 크기 실험) (0) | 2025.11.18 |
| 다음 추가 개념 리스트 (0) | 2025.11.18 |
| l1_l2_temporal_locality_test (0) | 2025.11.18 |
| 퀴즈 — Register Pressure & Occupancy & Compiler Behavior (0) | 2025.11.18 |