본문 바로가기

AI Compiler framework

학습 구조 완성의 기준 ? - 모든 operation 구현이 아닌 프레임워크 루프, Trace - Plan - Execute - Measure 의 기능 완성임

명징직조지훈 2025. 12. 21. 11:35

현재 상황

op_call 로 호출 통일한 상태에서 학습 구조(Trainer / capture / replay / 검증 / 프로파일)의 완성
ops 가 부족해도 괜찮, 대신 fallback + stub + minimal op set 으로 루프를 먼저 닫음
모든 operator 를 구현한 뒤 학습 구조를 만들겠다는 순서는 비효율적

현재 만들고 있는 것은 커널 집합이 아닌 실행 시스템

op_call(kind, inputs, outputs, attrs) 와 같은 형태로 통일하면, op 가 무엇이든 상관없이 동일한 파이프라인으로 돌기 가능

필요한 조건 내용

최소 연산 세트
- GEMM
- EltwiseAdd
- EltwiseRelu
- MSE
명확한 fallback 정책 - 완전한 AICF 학습이 목표가 아닌
- AICF 가 커버하는 op 는 op_call 을 통해...
측정 / 비교 / 회귀가 루프 안에 들어가야 한다
- warmup - capture - replay
- replay vs eager forward loss sanity check
- ncu / nvtx / step timing 출력

학습 구조 완성을 위한 최소 체크리스트

모드 3 개 : eager / bench / capture
Forward-only capture 라도 먼저
op_call 하나로 gemm / add / relu 등의 호출
fallback 으로 end-to-end 학습 step 이 돌아감
replay 가 입력만 바꿔가며 동작
validate_every 로 replay vs eager forward loss sanity check 통과
ncu 돌릴 수 있는 entrypoint 가 존재

'AI Compiler framework' 카테고리의 다른 글

최소 학습을 위한 추가 구현 필요 내용 ( MLP 를 목표로, (Linaer - ReLU + Linear) + Loss + SGD (0)	2025.12.22
AICF CUDA Plan A : Op 선택과 Kernel(Variant) 선택 메커니즘 (0)	2025.12.21
Trainer 의 역할 정의 ( AICF Framework - Execution Orchestrator ) 학습을 위해서가 아닌 실행을 고정하고 성능을 관찰하기 위해 등장한 구조 (0)	2025.12.21
현재 상황 및 개선해야 할 사항들에 대해 ( Trainer, Kernel, IR 표현 등등... ) (0)	2025.12.21
자동 생성 / 스캐폴딩을 위한 수정 내용 (Tensor Desc, ... ) (0)	2025.12.20

티스토리툴바