먼저 cuda 코드 부분, 해당 연산 구조 방식이 적합한지, 실행 시간 등의 측정으로 커널 최적화 가능
이후 binding 된 *.pyd 파일에 대해 어떤 형태로 python 상에서 사용할 수 있는지
ops/*.py ( 파이썬 글루 ), layer/*.py (파이썬 레이어) : pyd 모듈을 제대로 사용? 메모리 할당 제대로??
capture_plan ( ops별 ) : 할당에 필요한 메모리 계산 제대로??
전체 캡쳐 : 제대로 1 step 이 작동되는지
단계별로 확장, 하위 단계들을 포함하는 형태임,