📌 문제 요약
Windows + GeForce GPU 환경에서 Nsight Compute(ncu) 실행 시 다음 문제들이 발생할 수 있다:
- .ncu-rep 파일 생성 안 됨
- GUI에서 Launch 해도 “Process terminated”만 표시
- CLI에서 아무 출력/파일도 없음
- GUI 팝업 오류:
또는
-
ERR_NVGPUCTPERM — The user does not have permission to access NVIDIA GPU Performance Counters
이 문제는 설치/코드 문제와 무관하며, GPU 성능 카운터 접근 권한 + 드라이버 구성 문제 때문이다.
🎯 최종 해법 (바로 적용 가능한 공식 절차)
✅ 1. 드라이버를 "풀 패키지 드라이버"로 재설치해야 한다
(핵심 🔥 — nvidia-smi가 없는 드라이버는 성능 카운터 접근 불가)
Nsight Compute 사용에는 반드시 NVSMI(nvidia-smi.exe) 가 필요하다.
하지만 일부 Studio 드라이버 / NVIDIA App 설치 드라이버는 NVSMI가 누락되기도 한다.
해결:
NVIDIA 공식 페이지 → GeForce RTX 3060 → Windows 11 → Game Ready Driver(581.80) 설치
- 꼭 NVIDIA App이 아닌 웹 다운로드 설치 파일(.exe) 로 설치
- 설치 옵션에서 Clean Installation 선택
설치 후 반드시 확인:
정상 출력되면 NVSMI 준비 완료.
✅ 2. Performance Counter 접근 권한 초기화
PowerShell(관리자 권한):
출력 예:
All done.
WDDM 모드에서는 -pm 1 같은 기능은 제한되지만 정상이다.
✅ 3. OneDrive 경로 사용 금지
Output File 또는 실행 파일이 OneDrive 경로에 있으면
Windows가 attach를 차단해 다음 오류를 유발한다:
- 0xc0000409
- profiling terminated with no output
- attach error
해결:
Output File은 반드시 로컬 디스크 경로로 설정:
예:
또는:
✅ 4. Nsight Compute GUI에서 Activity Launch 정상화
Start Activity 화면에서 다음을 설정해야 한다:
Application Executable
Output File
→ 이 두 칸이 비어 있으면 ncu는 "프로파일을 실제로 시작하지 않는다"
→ .ncu-rep 파일도 생성되지 않는다
✅ 5. ERR_NVGPUCTPERM 해결 후 정상 작동
설치 + NVSMI + 권한 + 경로 문제 해결 후에는 GUI에서 다음 로그가 떠야 한다:
그리고 .ncu-rep 파일이 정상 생성된다.
🧩 문제 원인별 진단표
| ncu 실행 시 아무 파일도 생성 안 됨 | 실행 파일/Output File 미지정 | GUI에서 Application + Output File 설정 |
| error code 0xc0000409 | OneDrive 경로 + Windows 보안 차단 | Output File을 로컬 경로로 변경 |
| ERR_NVGPUCTPERM | GPU Performance Counter 접근 권한 없음 | nvidia-smi -rac, 드라이버 재설치 |
| nvidia-smi 명령 없음 | 드라이버에 NVSMI 미포함 | GRD 드라이버 재설치 |
| Profile 메뉴 비활성화 | Start Activity未 설정 | Start Activity에서 Launch 선택 |
| Launch succeeded but nothing happens | attach 실패(경로/권한) | Output File 변경 + 드라이버 재설치 |
🚀 최종 정상 실행 CLI 예시
프로파일 파일 생성 후:
🎉 이제부터 Nsight Compute / CUDA Kernel Profile 완전 사용 가능
이 과정에서 해결된 것들:
- NVSMI 설치
- Performance Counter 접근 권한
- OneDrive 경로 보안 차단
- GUI/CLI 경로 문제
- attach 실패
- Windows 보안 정책 개입
이제:
- Tensor Core MMA 분석
- cp.async pipeline stage stall 분석
- Warp stall breakdown
- Memory throughput
- Bank conflict / SMEM stall
- Roofline 모델
- 커널별 bottleneck 해석
모두 원활하게 사용할 수 있다.
'GPU-KERNEL' 카테고리의 다른 글
| Softmax Micro kernel Design (0) | 2025.12.10 |
|---|---|
| 이상적인 Epilogue Kernel 구현 - FlashAttention 을 보며... (1) | 2025.12.09 |
| Tensor Core 기반 GEMM ( 32, 32, 32 ) - Tile / MMA 구조 정리 문서 (0) | 2025.12.01 |
| TN 에 이어서 occupancy 측정 (0) | 2025.11.30 |
| Register Tiling TN Sweep test TN 이 증가하면, ILP (Instruction Level Parallelism) 증가 (0) | 2025.11.30 |