Trainer 구현 필요 - (현재 forward, backword 의 파편 호출과 파이썬에서 opimizer 갱신하고 있음 이를 개선)

먼저 각 독립 모듈부터 구현 및 실행 확인하자,

위 각 기능을 독립적으로 구현해서 작동 확인 후 trainer 를 통한 통합을 시행해보자잇!

trainer는 backends/cuda/ops/*를 한데 묶어 “스텝 단위(fwd→bwd→opt)”로 실행하는 네이티브 엔진

독립 _ops_* 바인딩은 “단독 테스트/벤치”용으로 유지하고, 실제 학습 루프에선 _trainer.pyd 하나로 통합 호출이 베스트

Graph Executor v2 — Forward 및 Training Graph 설계 문서 (0)	2025.10.07
GEMM(+bias+act)에서 Z(pre-activation) 저장/활용 설계 (0)	2025.10.06
losses/softmax_ce 와 layers/softmax_ce 의 단일 백엔드 연산으로의 통일, 그 와중에 생기는 고민, 일반적인 framework 는 왜 model(layer) 과 comfile (loss_function) 을 분리하는가? 아니면 사용자 입장에서만 그렇게 분리되어서 구성된 것 처럼 보이고, 연산의 경우는 내부에 통합되어서 사용되는건지? -> 사용자는 다양한 비용 함수의 비교 결과를 확인하기 위해 그렇다라는 생각이 듦... 실 (0)	2025.10.04
Dense / GEMM 역전파 (bias grad) 스케일 - 축 불일치 수정 (0)	2025.10.04
Python 코드 구조·작성 가이드 (ops / layers) (0)	2025.10.02

뜻 지, 가르칠 훈