pyd 테스트 : CUDA 커널 + 바인딩이 올바른 수식 구현
glue (ops.gemm) test : pyd 타입 / 포인터 래핑, attrs, capture-safe 정책이 수식과 1:1 대응된다.
layer 테스트 : 프레임워크 레벨에서 파라미터, 그래디언트 규약까지 맞게 올라간다
gemm 은 수학적 검증 완료
capture-safe 경로까지 포함해서 검증된 상태
최하단, pyd 레벨
Python → _ops_gemm.pyd → C++ shim → CUDA kernel
raw 포인터기반
glue 레벨 (ops / gemm.py)
- cupy.ndarray - shim Tensor 변환
- attrs 구성
- bias 처리 / PerN 규약 변환
- save_z 정책
- capture-safe 경로에서 절대 할당 금지 확인
- ptr 전다릉ㄹ 위해 to_voidp_capsule 로 stream 처리
layer level
- layer 내부
- last_input / last_linear(Z) 캐시
- gradient shape 규약
- gW = gB vs kernel output 정합성
- bias 규약
- 수동 backward
- 네이티브 backward
- capture-safe backward
전부 동일 확인, 전체 파이프라인이 동일한 수학을 구현한다는 것의 확인!!
'dev_AI_framework' 카테고리의 다른 글
| ncu 실제 분석 내용 ( 최적화 항목 확인 ) - 다음 단계 내용 포함 (0) | 2025.11.16 |
|---|---|
| CUDA 성능 분석 도구 다른거 사용하자, (NVTX - 성능 분석용 태깅 도구) 실제 커널최적화의 경우 Ncu ( Nsight Compute) (0) | 2025.11.15 |
| _ops_common 의 구현을 통한 공통 shim 타입 / 규약의 단일 진입점의 역할 수행 (0) | 2025.11.15 |
| 각 부분에 대한 테스트 코드 작성하자, (0) | 2025.11.14 |
| 새로운 스텝, 국소적인 각 부분에서 전체까지, 검증의 과정이 필요 (0) | 2025.11.14 |