본문 바로가기

전체 글

(1796)

Warp Progress Divergence Probe 1. 실험의 출발점이 실험은 하나의 block 안에 있는 여러 warp가 같은 시간 조건에서 얼마나 다르게 진행되는지를 관찰하기 위한 probe이다.다만 바로 서로 다른 task를 부여하기 전에, 먼저 기준선이 필요하다.기준선은 이전 warp_issue_policy_probe의 mode 0 결과다.mode 0에서는 하나의 CUDA block 안에 4개의 warp를 배치하고, 모든 warp가 동일한 independent_alu workload를 수행했다.warp 0 : independent_aluwarp 1 : independent_aluwarp 2 : independent_aluwarp 3 : independent_alu결과는 다음과 같았다.warp 0 progress = 459,715warp 1 pro..

Shared Padding Phase Sweep 실험 문서 1. 실험 목적shared_padding_phase_sweep는 shared memory padding이 bank conflict를 단순히 제거하는지, 아니면 conflict가 발생하는 위치와 형태를 재배치하는지를 확인하기 위한 2차원 sweep 실험이다.초기 가설은 다음과 같았다.padding_period를 바꾸면 conflict spike가 period - 1 근처로 이동하는가?이번 실험 결과는 이 가설이 일부만 맞다는 것을 보여준다. P-1 ridge는 실제로 존재하지만, 전체 현상은 더 복잡하다. padding은 단일 conflict를 없애는 규칙이 아니라 logical address에서 physical shared memory address로 가는 mapping을 바꾸며, 그 결과 새로운 pha..

GPU Probing은 해부학이 아니라 행동학이다 1. 문제의식GPU probing을 처음 시작하면 자연스럽게 이런 욕망이 생긴다.“GPU 내부에서 정확히 무슨 일이 일어나는지 알고 싶다.”하지만 이 표현은 조심해야 한다.우리가 실제로 보고 있는 것은 GPU 내부의 회로도, 스케줄러의 모든 결정, 캐시 정책의 완전한 상태, 메모리 컨트롤러의 순간적인 판단이 아니다.우리가 직접 볼 수 있는 것은 다음과 같은 것들이다.특정 커널을 실행했을 때의 시간stride를 바꿨을 때의 latency 변화block/thread 구성을 바꿨을 때의 throughput 변화padding을 넣었을 때 spike가 사라지는지 여부반복 실행 시 결과가 안정적인지, 흔들리는지GPU 종류가 바뀌었을 때 반응 곡선이 어떻게 달라지는지즉 우리는 GPU의 내부 장기를 직접 해부하는 것이..

Shared Bank Conflict Probe의 역할 - 발견 실험이 아니라, 계측기 보정 실험으로 보기 1. 이 실험의 위치shared_bank_conflict_stride 와 shared_pad_effect 는 새로운 GPU 이론을 발견하기 위한 실험이라기보다. GPU 를 읽기 위한 계측 파이프라인이 제대로 작동하는지 확인하는 기준 실험에 가깝다이 실험의 핵심 가치는 다음 문자엥 있다.이미 알려진 shared memory bank conflict 현상이, 우리가 만든 probe 구조에서도 실제 latency curve 로 재현되는가?이후 더 복잡한 실험에서 관찰되는 곡선, spike, plateau, anomaly 를 해석하려면 먼저 다음이 확인되어야 한다.1. kernel shape가 의도한 하드웨어 반응을 만들 수 있는가2. host runner가 반복 실행과 timing을 안정적으로 수행하는가3. ..

1. 인식론: 우리는 GPU를 어떻게 “안다”고 말할 수 있는가 GPU 내부 메커니즘은 대부분 직접 보이지 않는다우리가 보는 것은 대개 이런 것들커널 코드입력 파라미터실행 시간카운터 일부결과값하지만 알고 싶은 것은 이것memory coalescingcache reusebank conflictwarp schedulingTLB behavioroccupancyaddress aliasing간극이 존재과학철학의 전형적인 문제와 닮았다.관측값 → 보이지 않는 원인 구조의 추론실험적 흔적을 통해 구성적으로 이해한다.중요한 철학적 문장은 이렇게 쓸 수 있다.하드웨어를 안다는 것은 내부를 완전히 보는 것이 아니라,특정 코드 변형에 대해 반복적으로 나타나는 반응 구조를 통해보이지 않는 실행 제약을 점진적으로 좁혀 가는 것이다. 2. 존재론 : 성능은 수치인가, 구조의 발현인가일반적인 ..

GPU Probing 구현, 구축 방법론 문서화 - 블랙박스 하드웨어를 읽기 위한 실험 기반 컴파일러 설계 0. 문제 의식에서 GPU 커널 최적화는 단순히 더 빠른 커널을 작성하는 일이 아니다.핵심은 다음에 가깝다. GPU 라는 블랙박스 실행 장치가 특정 코드 구조에 대해 어떤 반응을 보이는지 관찰하고, 그 반응을 다시 커널 합성, 선택, 변환 규칙으로 되돌리는 것일반적인 벤치마크는 이렇게 묻는다이 커널이 얼마나 빠른가?하지만 GPU Probing 은 이렇게 묻는다이 커널 구조는 GPU 의 어떤 메커니즘을 건드렸는가?관찰된 latency spike, throughput drop, occupancy 변화는 어떤 하드웨어 제약의 흔적인가이 결과를 다른 커널 생성 과정에서 어떻게 재사용할 수 있는가?따라서 GPU probing 은 커널 최적화 시스템의 경험적 물리 기반에 해당한다. 1. GPU Probing 의 기..

SGD 와 확률미분방정식 : AI 학습을 동역학으로 읽기 - 왜 미니배치 학습은 단순한 경사하강법이 아니라, 잡음이 섞인 확률적 흐름으로 이해되어야 하는가 1. 문제의 출발점AI 학습은 헤밀토니안 계처럼 보존적인 결정론 흐름이라기보다, 오히려 손실을 낮추는 방향으로 움직이는 소산적 과정에 가깝다. 그런데 여기서 더 들어가면 중요한 질문이 생긴다.SGD 는 단순히 gradient descent 를 조금 대충 계산한느 근사일까? 아니면 본질적으로 다른 종류의 동역학일까겉보기에 SGD 는 그냥 전체 gradient 대신 미니배치 gradient 를 쓰는 계산 절약 버전처럼 보인다.하지만 이 식은 단순한 계산상의 근사로만 보면 핵심을 놓치게 된다. 실제로 SGD 는 매 스텝마다 잡음이 섞인 동역학을 만든다 .그리고 이 잡음은 단순한 오차가 아니라, 학습의 성격 자체를 바꾸낟. 이 문서의 목표는 바로 이것이다.SGD 를 확률미분방정식 (SDE) 의 관점에서 읽어, ..

헤밀토니안 계와 AI 문제 해결의 구조적 차이 - 왜 컴퓨터 안에서 모든 변수를 볼 수 있어도, 물리학의 이상적 해법은 AI 문제에 그대로 이식되지 않는가 ( 라플라시안 악마의 직관에서 시작 ) 1. 문제 의식AI 를 공부하다 보면 물리학과 닮은 장면을 자주 보게 된다.손실 함수는 퍼텐셜gradient descent 는 운동 법칙regularization 은 제약 조건diffusion model 은 확률 과정과 역과정energy-based model 은 통계 물리neural ODE, Hamiltonian neural network 같은 접근은 물리학적 형식을 빌려옴이 때문에 자연스럽게 다음과 같은 질문이 생긴다AI 문제는 왜 물리학의 이상적 해결 방식과 점점 더 가까워 보이는데도, 정작 완전히 같은 방식으로 풀리지 않는가?특히 컴퓨터 내부라면 상황이 더 단순해 보인다.파라미터를 전부 저장할 수 있고상태를 읽을 수 있고업데이트 규칙을 정함과같은 실험의 반복 재현도 가능직관적으로 이러한 생각컴퓨터 ..

이전 1 2 3 4 ··· 225 다음

티스토리툴바