각 warp 는 다른 일을 담당할 수 있다...

기본형 : 모든 warp 가 동일한 일을 한다.

대부분의 CUDA 커널으느 이렇게 짠다.

즉, 각 warp 가 동일한 연산 패턴을 서로 다른 데이터에 대해 반복한다.

warp 는 동일한 일을 하는 게 아니라, 공장 라인의 서로 다른 작업자

이런 구조는 고급 커널에서 작동

왜 이런 구조가 나타났냐면..

서로 다른 자원을 쓰는 warp 들을 섞으면 stall 이 서로 겹쳐져 보이지 않게 되고 overall throughput 이 올라간다.

stall 개념에서 접근.

GPU 는 SIMT 기반,

이러한 이유로 일반적인 커널은 warp 모두 동일한 일을 수행

warp 각각이 서로 다른 파이프 라인, 독립적이면, stall 이 서로 겹치지 않고 서로의 공백을 채운다.

필요한 정확한 지점에서 sync 을 넣고 warp 단위 독립 구간을 만들어야 한다.

warp 에 이은 lane specialization?? (0)	2025.12.15
여기서 다시 한 번 GPU 실행 단위 정리하기 (0)	2025.12.11
Softmax Micro kernel Design (0)	2025.12.10
이상적인 Epilogue Kernel 구현 - FlashAttention 을 보며... (1)	2025.12.09
Nsight Compute / ncu 권한 문제 해결 가이드 (Windows + GeForce) (0)	2025.12.04