GEMM 에서 register tiling 을 키워서 ILP 를 늘렸을 때, FMA 파이프 활용도가 좋아지는지에 대한 확인
register / occupancy 트레이드 오프 확인
TN 이 증가하면, ILP (Instruction Level Parallelism) 증가, FMA 활용 증가, 성능 증가
TN 이 너무 커지면 레지스터 사용량 증가, occupancy 감소
tn 증가가 단순하게 커널 코드 내 변수의 증가로 레지스터 증가라고 생각하면 좀 더 직관적인듯
'GPU-KERNEL' 카테고리의 다른 글
| Tensor Core 기반 GEMM ( 32, 32, 32 ) - Tile / MMA 구조 정리 문서 (0) | 2025.12.01 |
|---|---|
| TN 에 이어서 occupancy 측정 (0) | 2025.11.30 |
| 헐 lane 과 bank 가 다른 개념이었어, 숫자만 32로 동일한 것 - 여기서 swizzle 의 등장 (0) | 2025.11.30 |
| Shared Memory Bank Conflict Test - padding 을 통해 bank conflict 회피 가능 (0) | 2025.11.30 |
| Fragment layouy visualize test (0) | 2025.11.30 |