Determinism + Goden 테스트 고정
목표 : replay N 회 동일 + Torch 대비가 항상 돌아가게 만들기, 기능 확장 전 안정망
구현 체크 리스트
- 동일 seed + 동일 입려긍로
- replay 100 회
- Torch backend 와의 비교
Capture Guard ( 금지 동작 / 규칙을 런타임에서 강제 )
목표 : 캡처 중에 하면 안 되는 것을 규칙으로 박아두기, 나중에 기능 늘릴수록 이게 없으면 원인 추적 어려움
구현 체크리스트
- Capture scope 진입 / 탈출을 명확히 하고 상태 머신화
- Idle - Capturing - Captured - Replaying
- capturing 중 체크
- stream 변경 감지
- 동적 shape / stride 변경 방지
- 디버그 모드에서 cudaGetLstError 및 sync 포인트 감시
LayerNorm + Registry Variant 기본형
훈련에 필요한 레이어 하나를 제대로 넣기
구현 체크 리스트
- 최소 스펙
- 입력 (N, D) 또는 (B, T, D) 에서 마지막 dim norm
- gamma / beta optional 지원
- backward
- 표준 LN bwd 공식 구현
- registry variant
- dtype ~~
Softmax + CrossEntropy 데모 경로
분류 학습 데모 가능
구현 체크 리스트
- 1차 목표
- logsumexp + softmax + nll 조합
- backward
- 가능하면 fused bwd 구현
테스트
- torch 대비, replay determinism
GraphKey/VariantKey 고도화 + Graph Pool 캐시
...
'AI Compiler framework' 카테고리의 다른 글
| PR2 - Training Progress + Sequence Determinism (0) | 2025.12.30 |
|---|---|
| PR1 - Replay Determinism Verification (0) | 2025.12.30 |
| accumulata = False / True, 먼뜻인지 True 환경에서 deterministic 하게 (1) | 2025.12.30 |
| Steplnc + BiasCorr + AdamStep 확인 이후 상황 (0) | 2025.12.30 |
| graph capture 구현 이후 현재 상태 - 앞으로의 개발 방향 (0) | 2025.12.29 |