TN 이 증가함에 따라 커널 내 변수 많아짐, ( thread 내 register 의 증가 )
이는 곧 SM 단위 active warps 가 감소, (occpancy 감소 )
하지만 낮은 occupancy 가 곧 성능 저하로 이어지는 것이 아님,
작은 TN, 여러 번의 memory bound 와
높은 TN, compute bound 의 속도 차이로 인해
낮은 occupancy 에서도 높은 성능을 보이고, 최적 GEMM 에서도 절반 이하의 occupancy 를 보임
다시 정리하자면
compute bonud - 낮은occupancy ㄱㅊ
memory bound - 높은 occupancy 로 이해?
'GPU-KERNEL' 카테고리의 다른 글
| Nsight Compute / ncu 권한 문제 해결 가이드 (Windows + GeForce) (0) | 2025.12.04 |
|---|---|
| Tensor Core 기반 GEMM ( 32, 32, 32 ) - Tile / MMA 구조 정리 문서 (0) | 2025.12.01 |
| Register Tiling TN Sweep test TN 이 증가하면, ILP (Instruction Level Parallelism) 증가 (0) | 2025.11.30 |
| 헐 lane 과 bank 가 다른 개념이었어, 숫자만 32로 동일한 것 - 여기서 swizzle 의 등장 (0) | 2025.11.30 |
| Shared Memory Bank Conflict Test - padding 을 통해 bank conflict 회피 가능 (0) | 2025.11.30 |