먼저 각 독립 모듈부터 구현 및 실행 확인하자,
- Trainer 최소 구현: fwd→loss→bwd→SGD(step) + 버퍼 플래트닝.
위 각 기능을 독립적으로 구현해서 작동 확인 후 trainer 를 통한 통합을 시행해보자잇!
trainer는 backends/cuda/ops/*를 한데 묶어 “스텝 단위(fwd→bwd→opt)”로 실행하는 네이티브 엔진
독립 _ops_* 바인딩은 “단독 테스트/벤치”용으로 유지하고, 실제 학습 루프에선 _trainer.pyd 하나로 통합 호출이 베스트