sequential model 의 architecture 확인을 통한 fine kernels matching algorithm 구현 필요,

현재 단순히 sequential model 에서

각각의 독립 모듈에 대응되는 layer 들을 선택해서 쌓아나가는 방식으로 model 을 구성하고,

전체 모델의 capture 와 실행을 통해 학습의 구현 중

일부 특정 layer 들의 조합은 최적화된 커널 형태로 실행될 수 있음

이를 위해 일종의 패턴 매칭 과정이 추가되어야 한다.

먼저 내가 구현한 각 독립 모듈들이 어떤 연산까지 구현하는지에 대해 문서화를 해보자.

(gemm 의 경우 matrix mul ( weight ), matrix add ( bias ), elemental mul ( activation function ) 까지의 연산이 합쳐져 있음 - epilogue )

사용자 정의 조합, 연산들에 대해 Epilogue 확장 가이드 ( graph_capture-safe, epilogue condition 조건 만족) (0)	2025.10.16
graph_capture - loss 까지 완료 (0)	2025.10.15
CUDA Graph 학습 경량 가이드 (0)	2025.10.10
gemm 헬퍼 모듈 요약 및 graph_capture 정리 (0)	2025.10.10
현재 CUDA Graph Capture 과정 (0)	2025.10.07

뜻 지, 가르칠 훈