일반적으로 Fully-connected layer 나 Linear layer 에서 수행되는 연산은
Y = XW + b
X = (M, K)
W = (K, N)
b = N or M
Y = (M , N)
(10,4) @ (4,2) -> (10,2)
여기서 bias b 를 어떻게 브로드 캐스팅 하느냐에 따라 행 바이어스, 열바이어스로 나뉜다.
열 바이어스, Coulmn Bias
가장 흔히 쓰이는 방식, bias 벡터가 출력 행렬의 열 방향에 더해짐,
bias shape = N, 열 방향에 더해짐,
직관적으로 출력 뉴런마다 하나의 bias
행 바이어스, Row Bias
M 차원에 더해짐,
직관적으로 입력 샘플마다 하나의 bias
'dev_AI_framework' 카테고리의 다른 글
| Softmax Operation — Design & Implementation Notes (0) | 2025.09.22 |
|---|---|
| Backward 구현 및 Graph_excutor_v2 에 이식 (0) | 2025.09.21 |
| graph_executor_v2 — 아키텍처 개요 & 통합 가이드 (0) | 2025.09.19 |
| AI Framework 구현을 위한 최적의 구조 생각 ( 확장 및 보완 중심? ) - C++/CUDA Core + 얇은 pybind11 Adapter 아키텍처 가이드 (0) | 2025.09.06 |
| GEMM + Bias + Activation “1-Write” 설계 노트 (Register-Epilogue 방식) (0) | 2025.09.04 |