본문 바로가기

dev_AI_framework

pyd(raw) - glue(gemm.py) - layer(Dense) - capture_safe 경로까지 전부 Numpy 레퍼런스와 일치 확인 ( float32 rounding 수준이라는 개념 습득! )

pyd 테스트 : CUDA 커널 + 바인딩이 올바른 수식 구현

glue (ops.gemm) test : pyd 타입 / 포인터 래핑, attrs, capture-safe 정책이 수식과 1:1 대응된다.

layer 테스트 : 프레임워크 레벨에서 파라미터, 그래디언트 규약까지 맞게 올라간다

 

gemm 은 수학적 검증 완료

capture-safe 경로까지 포함해서 검증된 상태

 

최하단, pyd 레벨

Python → _ops_gemm.pyd → C++ shim → CUDA kernel

 raw 포인터기반 

 

glue 레벨 (ops / gemm.py)

 

  • cupy.ndarray - shim Tensor 변환
  • attrs 구성
  • bias 처리 / PerN 규약 변환
  • save_z 정책
  • capture-safe 경로에서 절대 할당 금지 확인
  • ptr 전다릉ㄹ 위해 to_voidp_capsule 로 stream 처리

 

 

layer level

 

 

  • layer 내부
    • last_input / last_linear(Z) 캐시
    • gradient shape 규약
    • gW = gB vs kernel output 정합성
    • bias 규약
  • 수동 backward
  • 네이티브 backward
  • capture-safe backward

전부 동일 확인, 전체 파이프라인이 동일한 수학을 구현한다는 것의 확인!!