GEMM 출력 f16 유지 + Elementwise Rank 의미 제거 ( Dispatch 계약 정리 )

이전엔 GEMM 이 A, B 가 f16 의 입력을 받아도 출력 C 를 f32 로 내보냈음

다음의 변화

이전에는 누산 과정에 따라 upcasting 이 되었음

store 단계에서만 float - half 의 변환,

출력 텐서가 [M, N] 형태로 유지되자, 이전의 1D 전용 계약 커널들의 오류

Elementwise / pointwise 연산들의 rank 는 의미가 없음

와 같은 내용들이 중요

GEMM Transpose 처리 관련 수정 전 (0)	2025.12.28
AI Framework 전체 실행 구조 문서 (8)	2025.12.26
End-to-End Train Step Verification - Custom CUDA Ops 기반 1-step Training Pipeline (0)	2025.12.24
ge_v2 와는 다르게 forward / backward 를 같은 operation 내에 묶지 않는다? (0)	2025.12.22
naive GEMM 을 TC GEMM 으로 수정하자 ( NN, TN, NT 지원 - T 는 transpose 야 ) (0)	2025.12.22

뜻 지, 가르칠 훈