각 ops 에 대한 검증과
전체적으로 graph_capture 에 대한 부분까지,
nvtx 를 좀 더 적극적으로 활용해서 기록으로 남기자
ops 의 커널 구현 방식과 해당 방식에 대한 연산 검증, 시간 측정 필요
static_graph 의 각 부분에 대한 검증과 전체 과정, one_step 이 올바르게 작동했는가에 대해서도
문서화 야무지게 해보자,
'dev_AI_framework' 카테고리의 다른 글
| _ops_common 의 구현을 통한 공통 shim 타입 / 규약의 단일 진입점의 역할 수행 (0) | 2025.11.15 |
|---|---|
| 각 부분에 대한 테스트 코드 작성하자, (0) | 2025.11.14 |
| dropout 의 scaling 과 constexpr 을 통한 compile 내 최적화 - 결정론적이려면 어떻게 해야 하는지 (0) | 2025.11.13 |
| GPU 실행 모델의 구분, 정리 ( 단일 스트림 구현 이유를 정리하다가 remind 가 필요했음) - 추론 최적화에선 어떻게 적용할지 (0) | 2025.11.11 |
| ai_shim.hpp 의 수정 이후 오류 발생, 해결 과정 - activation function 에 의한 save_z 조건의 규칙을 좀 더 세분화해야겠다. (0) | 2025.11.10 |