본문 바로가기

dev_AI_framework

커널 선택 방식의 고민 - epilogue 방식이 아닌 다른 방식을 사용해보자 (accumulate 내부 수정 )

생각한 것은, 모델의 IR 표현을 graph_compiler 를 통한 적합한 커널 선택으로 커널 호출의 최소화, 

그런데 epilogue 를 사용하는 방식은 graph_compiler 의 구현을 필요로 하지 않는 거 아닌지, matmul의 커널 내에서 activation, bias 연산이 있으면 해당 epilogue 를 실행하는 방식이니까 굳이 특정 커널의 선택이 없어도 되는 거잖

이러한 방식은 이전의 나의 fuse_elementwise 가 필요로 하지 않는 거 아닌지에 대해 고민,