AI 컴파일러의 정의와 Frame_work 내 사용 방법 고민
AI 컴파일러란?AI 모델을 효율적으로 실행하기 위해 중간 표현(Intermediate Representation, IR)으로 변환하고, 하드웨어별 최적화된 실행 코드로 컴파일하는 시스템을 의미전통적인 컴파일러가 “C/C++ 같은 소스 코드를 기계어로 변환”한다면, AI 컴파일러는 “딥러닝 모델 그래프를 GPU, TPU, CPU 같은 다양한 하드웨어에서 최적 성능을 내도록 변환”하는 역할 1. 일반적인 정의입력: 딥러닝 프레임워크(Pytorch, TensorFlow 등)에서 정의된 연산 그래프(예: matmul, conv, relu …).중간 표현(IR): 하드웨어 독립적인 중간 언어로 모델을 추상화 (ex: XLA HLO, MLIR, TVM IR).출력: 특정 하드웨어용 최적화된 코드 (CUDA ker..
현재 GEMM 구현 내용
#pragma once#include #include #include "../ge/cuda_check.cuh"// Row-major 매핑 래퍼들// 단일 배치 GEMM (TF32)inline void gemm_rm_tf32( cublasHandle_t h, bool transA, bool transB, int M, int N, int K, const float* A, int lda, const float* B, int ldb, float* C, int ldc, float alpha=1.f, float beta=0.f){ cublasOperation_t opA = transA ? CUBLAS_OP_T : CUBLAS_OP_N; cublasOperation_t..