본문 바로가기

AI Compiler framework

학습 구조 완성의 기준 ? - 모든 operation 구현이 아닌 프레임워크 루프, Trace - Plan - Execute - Measure 의 기능 완성임

현재 상황 

  • op_call 로 호출 통일한 상태에서 학습 구조(Trainer / capture / replay / 검증 / 프로파일)의 완성
  • ops 가 부족해도 괜찮, 대신 fallback + stub + minimal op set 으로 루프를 먼저 닫음
  • 모든 operator 를 구현한 뒤 학습 구조를 만들겠다는 순서는 비효율적

 

현재 만들고 있는 것은 커널 집합이 아닌 실행 시스템

op_call(kind, inputs, outputs, attrs) 와 같은 형태로 통일하면, op 가 무엇이든 상관없이 동일한 파이프라인으로 돌기 가능

 

필요한 조건 내용

  • 최소 연산 세트
    • GEMM
    • EltwiseAdd
    • EltwiseRelu
    • MSE
  • 명확한 fallback 정책 - 완전한 AICF 학습이 목표가 아닌
    • AICF 가 커버하는 op 는 op_call 을 통해...
  • 측정 / 비교 / 회귀가 루프 안에 들어가야 한다
    • warmup - capture - replay
    • replay vs eager forward loss sanity check
    • ncu / nvtx / step timing 출력

 

학습 구조 완성을 위한 최소 체크리스트 

  • 모드 3 개 : eager / bench / capture
  • Forward-only capture 라도 먼저
  • op_call 하나로 gemm / add / relu 등의 호출
  • fallback 으로 end-to-end 학습 step 이 돌아감
  • replay 가 입력만 바꿔가며 동작
  • validate_every 로 replay vs eager forward loss sanity check 통과 
  • ncu 돌릴 수 있는 entrypoint 가 존재