Scaled Dot-Product Attention (SDPA)

개요

CUDA 기반의 Scaled Dot-Product Attention (FWD) 제공,

내부에서 Q @ K^T - softmax - dropout - @ V 순서로 계산

ai::SDPAAttrs:

파일: backends/cuda/ops/sdpa/launcher.cu

FWD: ai::Status SDPACudaLaunch(...)
- Q,K,V,Y 형식 검증 → K 전치 → gemm_run(Q @ Kt) → softmax(scale) → dropout(옵션) → gemm_run(P @ V)
- 실패 시 Status::RuntimeError/Status::ShapeMismatch 등 반환
BWD: ai::Status SDPACudaBackwardLaunch(...)
- 스텁: Status::Unimplemented 반환

참고: gemm_run이 trans_b=true를 지원하지 않는 환경을 위해 transpose_rm_f32 커널로 K^T를 만들고 trans_b=false로 호출합니다.

파일: src/ops/sdpa.cpp

향후 “GEMM → softmax → (dropout) → GEMM”을 개별 커널로 돌리는 대신, epilogue/fusion로 묶어서 메모리 왕복과 커널 런치 수를 크게 줄일 수 있다.

LLM 과 접목, 최적화 커널 구성과 빌드, 모듈 생성의 과정을 자동화 (0)	2025.09.23
특정 모델 구조/레이어 집합을 커널 최적화된 CUDA 코드 생성 시스템 (0)	2025.09.23
Dropout (CUDA) — 구현 문서 (0)	2025.09.22
Cross-Entropy 모듈 추가 / 수정 (0)	2025.09.22
Cross-Entropy (CUDA) (0)	2025.09.22