현재 상황
- op_call 로 호출 통일한 상태에서 학습 구조(Trainer / capture / replay / 검증 / 프로파일)의 완성
- ops 가 부족해도 괜찮, 대신 fallback + stub + minimal op set 으로 루프를 먼저 닫음
- 모든 operator 를 구현한 뒤 학습 구조를 만들겠다는 순서는 비효율적
현재 만들고 있는 것은 커널 집합이 아닌 실행 시스템
op_call(kind, inputs, outputs, attrs) 와 같은 형태로 통일하면, op 가 무엇이든 상관없이 동일한 파이프라인으로 돌기 가능
필요한 조건 내용
- 최소 연산 세트
- GEMM
- EltwiseAdd
- EltwiseRelu
- MSE
- 명확한 fallback 정책 - 완전한 AICF 학습이 목표가 아닌
- AICF 가 커버하는 op 는 op_call 을 통해...
- 측정 / 비교 / 회귀가 루프 안에 들어가야 한다
- warmup - capture - replay
- replay vs eager forward loss sanity check
- ncu / nvtx / step timing 출력
학습 구조 완성을 위한 최소 체크리스트
- 모드 3 개 : eager / bench / capture
- Forward-only capture 라도 먼저
- op_call 하나로 gemm / add / relu 등의 호출
- fallback 으로 end-to-end 학습 step 이 돌아감
- replay 가 입력만 바꿔가며 동작
- validate_every 로 replay vs eager forward loss sanity check 통과
- ncu 돌릴 수 있는 entrypoint 가 존재