Ouyang et al. · OpenAI · NeurIPS 2022 · arXiv:2203.02155

InstructGPT / RLHF Reinforcement Learning from Human Feedback

한 줄 요약: 사람이 선호하는 응답을 데이터로 보상 모델을 학습하고, 그 보상으로 언어 모델을 PPO 강화학습하면 GPT-3보다 1.3B 모델이 더 "좋은" 답을 낸다.

왜 RLHF가 필요한가

GPT-3 같은 언어 모델은 다음 토큰을 예측하는 것으로 학습된다. 이 목표는 "인터넷의 모든 텍스트를 흉내 내라"이지, "유용하고 안전하게 도와라"가 아니다. 결과적으로 다음과 같은 문제가 발생한다.

유해 콘텐츠 생성: 인터넷에는 혐오 발언, 잘못된 정보가 많다. 모델이 이를 그대로 학습한다.
사용자 의도 무시: "요약해줘"라는 요청에 문서를 계속 이어 쓰는 식의 오해를 한다.
거짓 정보 생성: 그럴듯하게 들리는 내용을 생성하는 것이 다음 토큰 예측에는 최적이다.

이 문제를 해결하는 것이 정렬(Alignment) — 모델의 목표를 인간의 의도에 맞추는 것이다. RLHF는 현재 가장 효과적인 정렬 방법이다.

핵심 통찰: "어떤 응답이 좋은가"를 수식으로 정의하기 어렵다. 하지만 사람에게 두 응답을 보여주고 "어느 쪽이 더 좋냐"고 물으면 쉽게 비교할 수 있다. RLHF는 이 비교 선호도를 학습 신호로 사용한다.

3단계 파이프라인 — 클릭해서 자세히 보기

SFT

지도 학습 파인튜닝

RM

보상 모델 학습

PPO

강화학습 최적화

보상 모델 — 어떤 답이 더 좋은가?

카드를 클릭해서 어떤 응답이 더 좋은지 선택해보세요 (보상 모델이 학습하는 방식과 동일).

보상 모델(RM) — 선호도를 수치화하기

RM의 학습 목표는 두 응답 $y_w$(선호)와 $y_l$(비선호)을 비교할 때, 선호 응답에 더 높은 점수를 주는 것이다. Bradley-Terry 모델을 기반으로 다음 손실 함수를 사용한다:

$$\mathcal{L}_{RM} = -\mathbb{E}_{(x,y_w,y_l)}\bigl[\log\sigma(r_\phi(x,y_w) - r_\phi(x,y_l))\bigr]$$

$r_\phi(x,y_w) - r_\phi(x,y_l)$가 클수록(선호 응답에 더 높은 점수) 손실이 낮아진다. RM은 SFT 모델과 동일한 구조에 스칼라 출력 헤드만 추가한 것이다.

PPO 목적 함수

PPO(Proximal Policy Optimization)는 정책 경사(Policy Gradient) 알고리즘의 일종으로, 한 번의 업데이트가 정책을 너무 크게 바꾸지 않도록 제한("Proximal")한다. LLM 정렬에 사용할 때의 목적 함수:

$$\max_{\pi_\theta} \mathbb{E}_{(x,y)\sim\pi_\theta}\bigl[r_\phi(x,y)\bigr] - \beta\,\mathrm{KL}\bigl[\pi_\theta(y\mid x)\,\|\,\pi_{\rm ref}(y\mid x)\bigr]$$

두 항의 의미와 긴장 관계:

$r_\phi(x,y)$ — RM이 준 점수를 최대화. 이것만 최적화하면 "RM을 속이는 텍스트"를 생성하게 됨(reward hacking).
$\beta\,\mathrm{KL}[\pi_\theta \| \pi_{\rm ref}]$ — SFT 모델($\pi_{\rm ref}$)과 현재 정책의 KL 발산을 페널티로 부과. 언어 능력을 잃지 않도록 원점에 묶어두는 역할.
$\beta$는 이 두 항의 균형을 조절한다. 크면 보수적(SFT에서 별로 안 벗어남), 작으면 공격적(RM 점수 최대화 위주).

Reward Hacking 예시: RM이 "길이가 길면 더 상세하다고 판단"하는 편향이 있다면, 모델은 무의미한 내용을 반복해서 길게 쓰는 전략을 학습한다. KL 패널티가 이를 억제한다.

전체 학습 흐름

GPT-3 vs InstructGPT

GPT-3 175B vs InstructGPT 1.3B
사람 평가에서 InstructGPT 압도적 선호
더 작아도 더 도움이 되는 응답
"정직함"과 "무해함"이 크게 개선

한계 및 주의사항

Reward Hacking: RM 점수 ≠ 진짜 품질
라벨러 편향이 모델에 그대로 반영
Alignment Tax: 일부 NLP 벤치마크 하락
비용: RM 학습 + PPO = 매우 고비용

RLHF 이후 — 더 단순하게, 더 싸게

RLHF는 효과적이지만 복잡하다. RM 따로 학습, PPO 훈련 루프 관리, 보상 해킹 방지 등 엔지니어링 부담이 크다. 이를 단순화한 변형들이 등장했다.

DPO (Direct Preference Optimization)

Rafailov et al. 2023. RM을 별도로 학습하지 않고, 선호 쌍 데이터에서 직접 언어 모델을 최적화한다. PPO의 수학적 목표와 동치임을 증명했다. RM 없이 지도 학습과 비슷한 단순한 루프로 훈련 가능 → 구현과 계산 모두 훨씬 단순.

RLAIF (RL from AI Feedback)

Constitutional AI(Anthropic 2022) 등에서 제안. 사람 대신 AI(강력한 LLM)가 응답을 평가해서 선호 데이터를 만든다. 사람 라벨러 비용을 대폭 절감. 현재 Claude도 이 방식을 활용.

InstructGPT → ChatGPT → Claude → Gemini — 현재 거의 모든 대화형 AI가 RLHF(또는 변형인 DPO, RLAIF)를 사용해 사람이 선호하는 방향으로 정렬된다. GPT-3는 175B 파라미터로도 부족했던 "사용성"을, InstructGPT 1.3B가 달성했다. 크기보다 정렬이 더 중요함을 보여준 결정적인 증거다.