PR2 는 다음을 동시에 검증
- 학습 진행성
- replay step 마다 파라미터가 실제로 업데이트 된다.
- Adam optimizer state 가 증가한다.
- 학습 시퀀스 결정론
- 동일 seed / 동일 조건에서
- warmup - capture - replay N steps 전체 시퀀스를 2회 실행했을 때,
- 결과 시퀀스가 bitwise 동일해야 한다.
실제 결과
- replay 동안 max param ~ 1e-3 수준 변화 지속
- Adam step : 3 ~ 52 증가
- A/B 결과
- loss_seq bitwise identical
- step_seq identical
- checkpoint params bitwise identical
- 결론 : 학습 시퀀스 결정론 OK