현재 독립 모듈, gemm 의 경우 타일링 알고리즘 등의 최적화된 형태로 graph_capture-safe 한 형태로 단일 커널 내에서 실행되고 있음,
conv2d, rnn 의 최적화된 행렬 곱 연산이 재사용되는 layer 에선 gemm 에서의 graph_capture-safe, epilogue 조건을 가져와서 사용하고 또 이를 확장시켜서 해당 연산들도 두 조건을 만족하는 형태로 구현되었음
뿐만 아니라 다양한 조합에서도 이를 확장시켜서 구현 가능, 독립 모듈로 구현된 다른 기본 레이어 들이 graph_capture-safe, 단일 커널 실행 구조를 만족하는 상황에서 조합하여 사용 가능한 형태,
뿐만 아니라 사용자 정의 layer 나 연산이 추가될 때도 두 조건을 만족하는 상황이면 해당 layer 에 대한 최적화 연산 뿐만 아니라, 다른 모듈들과의 조합에서도 쉽게 확장 및 최적화 환경에서 실행 가능
'dev_AI_framework' 카테고리의 다른 글
| 정책화된 커널 내부 에필로그 호출 방식 (0) | 2025.10.19 |
|---|---|
| 템플릿화된 최적화!!! (0) | 2025.10.16 |
| graph_capture - loss 까지 완료 (0) | 2025.10.15 |
| sequential model 의 architecture 확인을 통한 fine kernels matching algorithm 구현 필요, (0) | 2025.10.13 |
| CUDA Graph 학습 경량 가이드 (0) | 2025.10.10 |