이전엔 GEMM 이 A, B 가 f16 의 입력을 받아도 출력 C 를 f32 로 내보냈음
다음의 변화
- GEMM 의 내부 누산은 f32 로 유지하되, 최종 출력은 f16 으로 유지
- 이후 연산들로 이어질 때 elementwise op 들이 rank 에 묶이지 않고 동작하도록 registry 계약 정리
이전에는 누산 과정에 따라 upcasting 이 되었음
store 단계에서만 float - half 의 변환,
출력 텐서가 [M, N] 형태로 유지되자, 이전의 1D 전용 계약 커널들의 오류
Elementwise / pointwise 연산들의 rank 는 의미가 없음
- 메모리의 contiguous
- 동일 shape
- 총 원소 수
와 같은 내용들이 중요
'AI Compiler framework' 카테고리의 다른 글
| GEMM Transpose 처리 관련 수정 전 (0) | 2025.12.28 |
|---|---|
| AI Framework 전체 실행 구조 문서 (8) | 2025.12.26 |
| End-to-End Train Step Verification - Custom CUDA Ops 기반 1-step Training Pipeline (0) | 2025.12.24 |
| ge_v2 와는 다르게 forward / backward 를 같은 operation 내에 묶지 않는다? (0) | 2025.12.22 |
| naive GEMM 을 TC GEMM 으로 수정하자 ( NN, TN, NT 지원 - T 는 transpose 야 ) (0) | 2025.12.22 |