epilogue 를 구현한 gemm forward 연산에서는 가중치 연산 ( 행렬 곱 ) , 편향 ( 행렬 합 - 단순 스칼라 값일 수도 있지만, 행렬로 변환하여 elementwise add 를 수행하기 때문에 행렬 합이라고 표현 ), activation ( elementwise multiply ) 연산을 단일 커널을 통해 수행함,
Z = A @ B + C
Y = f(Z)
그런데 backward 의 경우 Y 값에서 시작하여 거꾸로, activation - bias - weight 의 연산 과정을 수행하게 되면, 그 activation 의 종류에 따라 Z 값이 필요한 경우가 존재

Z 값의 저장이 없으면, 역전파시 필요한 Z 값을 위한 forward 연산이 또 필요로 함,
'dev_AI_framework' 카테고리의 다른 글
| Low-level GEMM 직통 경로 사용 가이드 (ai::Tensor 기반) (0) | 2025.10.01 |
|---|---|
| GPU 연산 최적화 - 내가 잘못생각하고 있었음, gpu-cpu 간 이동이 발생하는 경우에 대해 사실은 모두 gpu 내에서 실행 (0) | 2025.09.30 |
| 각 모듈별 독립 구현 변경 (0) | 2025.09.29 |
| 파이프 라인 수정... - IR → 패스 → 커널선택(디스패치) → 스케줄/메모리플랜 → 실행으로 이어지는 컴파일러형 학습 파이프라인 (0) | 2025.09.29 |
| 어느 단위 레벨까지 구현해야 할까 에 대한 고민 - 기본 레벨 연산들은 끝도 없 (0) | 2025.09.24 |