본문 바로가기

GPU-KERNEL

TN 에 이어서 occupancy 측정

TN 이 증가함에 따라 커널 내 변수 많아짐, ( thread 내 register 의 증가 )

이는 곧 SM 단위 active warps 가 감소, (occpancy 감소 )

 

하지만 낮은 occupancy 가 곧 성능 저하로 이어지는 것이 아님,

 

작은 TN, 여러 번의 memory bound 와 

높은 TN, compute bound 의 속도 차이로 인해

 

낮은 occupancy 에서도 높은 성능을 보이고, 최적 GEMM 에서도 절반 이하의 occupancy 를 보임

 

다시 정리하자면

compute bonud - 낮은occupancy ㄱㅊ

memory bound - 높은 occupancy 로 이해?