생각한 것은, 모델의 IR 표현을 graph_compiler 를 통한 적합한 커널 선택으로 커널 호출의 최소화,
그런데 epilogue 를 사용하는 방식은 graph_compiler 의 구현을 필요로 하지 않는 거 아닌지, matmul의 커널 내에서 activation, bias 연산이 있으면 해당 epilogue 를 실행하는 방식이니까 굳이 특정 커널의 선택이 없어도 되는 거잖
이러한 방식은 이전의 나의 fuse_elementwise 가 필요로 하지 않는 거 아닌지에 대해 고민,
'dev_AI_framework' 카테고리의 다른 글
| AI Framework 구현을 위한 최적의 구조 생각 ( 확장 및 보완 중심? ) - C++/CUDA Core + 얇은 pybind11 Adapter 아키텍처 가이드 (0) | 2025.09.06 |
|---|---|
| GEMM + Bias + Activation “1-Write” 설계 노트 (Register-Epilogue 방식) (0) | 2025.09.04 |
| epilogue 동작과정 이해 (0) | 2025.09.04 |
| Graph Executor v2 (GE2) 개발 진행 기록 (0) | 2025.09.04 |
| Header-only 템플릿 라이브러리 - CUTLASS (0) | 2025.09.03 |