“학습 전체 캡처(one-shot)”를 하려면?
- 현재 conv2d.backward / gemm.backward가 출력(gX/gW/gB 등)을 내부에서 생성합니다.
- CUDA Graph 캡처 중엔 새 GPU 할당이 금지되는 게 안전해요.
- 따라서 시그니처를 확장해서 out= 파라미터로 gX/gW/gB 버퍼를 사전 할당(아레나) 후 넘겨서, backward가 해당 버퍼에 직접 써주는 형태로 바꿔야 합니다. 그러면 forward+loss(+gY 계산)+backward+update까지 완전 캡처 가능합니다.
'dev_AI_framework' 카테고리의 다른 글
| gemm 헬퍼 모듈 요약 및 graph_capture 정리 (0) | 2025.10.10 |
|---|---|
| 현재 CUDA Graph Capture 과정 (0) | 2025.10.07 |
| 저수준 바인딩(.pyd) 와 파이썬 래퍼(헬퍼) - 헬퍼를 최소화하여 성능 향상을 기대해보자잇 (0) | 2025.10.07 |
| graph_executor_v2 구성 (0) | 2025.10.07 |
| Graph Executor v2 — Forward 및 Training Graph 설계 문서 (0) | 2025.10.07 |