커널 선택 방식의 고민 - epilogue 방식이 아닌 다른 방식을 사용해보자 (accumulate 내부 수정 )

생각한 것은, 모델의 IR 표현을 graph_compiler 를 통한 적합한 커널 선택으로 커널 호출의 최소화,

그런데 epilogue 를 사용하는 방식은 graph_compiler 의 구현을 필요로 하지 않는 거 아닌지, matmul의 커널 내에서 activation, bias 연산이 있으면 해당 epilogue 를 실행하는 방식이니까 굳이 특정 커널의 선택이 없어도 되는 거잖

이러한 방식은 이전의 나의 fuse_elementwise 가 필요로 하지 않는 거 아닌지에 대해 고민,

'dev_AI_framework' 카테고리의 다른 글

AI Framework 구현을 위한 최적의 구조 생각 ( 확장 및 보완 중심? ) - C++/CUDA Core + 얇은 pybind11 Adapter 아키텍처 가이드 (0)	2025.09.06
GEMM + Bias + Activation “1-Write” 설계 노트 (Register-Epilogue 방식) (0)	2025.09.04
epilogue 동작과정 이해 (0)	2025.09.04
Graph Executor v2 (GE2) 개발 진행 기록 (0)	2025.09.04
Header-only 템플릿 라이브러리 - CUTLASS (0)	2025.09.03

뜻 지, 가르칠 훈

커널 선택 방식의 고민 - epilogue 방식이 아닌 다른 방식을 사용해보자 (accumulate 내부 수정 )

'dev_AI_framework' 카테고리의 다른 글

티스토리툴바

커널 선택 방식의 고민 - epilogue 방식이 아닌 다른 방식을 사용해보자 (accumulate 내부 수정 )

'dev_AI_framework' 카테고리의 다른 글

'dev_AI_framework' Related Articles

티스토리툴바