현재 단순히 sequential model 에서
각각의 독립 모듈에 대응되는 layer 들을 선택해서 쌓아나가는 방식으로 model 을 구성하고,
전체 모델의 capture 와 실행을 통해 학습의 구현 중
일부 특정 layer 들의 조합은 최적화된 커널 형태로 실행될 수 있음
이를 위해 일종의 패턴 매칭 과정이 추가되어야 한다.
먼저 내가 구현한 각 독립 모듈들이 어떤 연산까지 구현하는지에 대해 문서화를 해보자.
(gemm 의 경우 matrix mul ( weight ), matrix add ( bias ), elemental mul ( activation function ) 까지의 연산이 합쳐져 있음 - epilogue )
'dev_AI_framework' 카테고리의 다른 글
| 사용자 정의 조합, 연산들에 대해 Epilogue 확장 가이드 ( graph_capture-safe, epilogue condition 조건 만족) (0) | 2025.10.16 |
|---|---|
| graph_capture - loss 까지 완료 (0) | 2025.10.15 |
| CUDA Graph 학습 경량 가이드 (0) | 2025.10.10 |
| gemm 헬퍼 모듈 요약 및 graph_capture 정리 (0) | 2025.10.10 |
| 현재 CUDA Graph Capture 과정 (0) | 2025.10.07 |