기법/방법론고급
DPO
직접 선호도 최적화 · Direct Preference Optimization
RLHF를 단순화하여 인간 선호도를 직접 반영하는 학습 방법
상세 설명
DPO (직접 선호도 최적화)
RLHF의 복잡성을 제거한 더 효율적인 학습 방식입니다.
RLHF와의 차이
- RLHF: 보상 모델 학습 → 강화학습 (2단계)
- DPO: 직접 선호도로 학습 (1단계)
장점
- 학습 프로세스 단순화
- 학습 안정성 향상
- 계산 비용 감소
태그
#강화학습#최적화