$r_\phi(x,y)$ — RM이 준 점수를 최대화. 이것만 최적화하면 "RM을 속이는 텍스트"를 생성하게 됨(reward hacking).
$\beta\,\mathrm{KL}[\pi_\theta \| \pi_{\rm ref}]$ — SFT 모델($\pi_{\rm ref}$)과 현재 정책의 KL 발산을 페널티로 부과. 언어 능력을 잃지 않도록 원점에 묶어두는 역할.
$\beta$는 이 두 항의 균형을 조절한다. 크면 보수적(SFT에서 별로 안 벗어남), 작으면 공격적(RM 점수 최대화 위주).
Reward Hacking 예시: RM이 "길이가 길면 더 상세하다고 판단"하는 편향이 있다면, 모델은 무의미한 내용을 반복해서 길게 쓰는 전략을 학습한다. KL 패널티가 이를 억제한다.
전체 학습 흐름
GPT-3 vs InstructGPT
GPT-3 175B vs InstructGPT 1.3B
사람 평가에서 InstructGPT 압도적 선호
더 작아도 더 도움이 되는 응답
"정직함"과 "무해함"이 크게 개선
한계 및 주의사항
Reward Hacking: RM 점수 ≠ 진짜 품질
라벨러 편향이 모델에 그대로 반영
Alignment Tax: 일부 NLP 벤치마크 하락
비용: RM 학습 + PPO = 매우 고비용
RLHF 이후 — 더 단순하게, 더 싸게
RLHF는 효과적이지만 복잡하다. RM 따로 학습, PPO 훈련 루프 관리, 보상 해킹 방지 등 엔지니어링 부담이 크다. 이를 단순화한 변형들이 등장했다.
DPO (Direct Preference Optimization)
Rafailov et al. 2023. RM을 별도로 학습하지 않고, 선호 쌍 데이터에서 직접 언어 모델을 최적화한다. PPO의 수학적 목표와 동치임을 증명했다. RM 없이 지도 학습과 비슷한 단순한 루프로 훈련 가능 → 구현과 계산 모두 훨씬 단순.
RLAIF (RL from AI Feedback)
Constitutional AI(Anthropic 2022) 등에서 제안. 사람 대신 AI(강력한 LLM)가 응답을 평가해서 선호 데이터를 만든다. 사람 라벨러 비용을 대폭 절감. 현재 Claude도 이 방식을 활용.
InstructGPT → ChatGPT → Claude → Gemini — 현재 거의 모든 대화형 AI가 RLHF(또는 변형인 DPO, RLAIF)를 사용해 사람이 선호하는 방향으로 정렬된다. GPT-3는 175B 파라미터로도 부족했던 "사용성"을, InstructGPT 1.3B가 달성했다. 크기보다 정렬이 더 중요함을 보여준 결정적인 증거다.