홈 뉴스 인사이트 AI 도구 용어집 트렌드 가이드

로그인 회원가입

AI 트렌드와 인사이트를 한곳에서. 최신 AI 뉴스, 커뮤니티, 도구 디렉토리.

탐색

뉴스
인사이트
AI 도구

커뮤니티

인사이트 작성
내 프로필

정보

서비스 가이드
개인정보 처리방침
이용약관
문의: hello@ai-kit.org

© 2026 AIKIT. All rights reserved.

DPO - AI 용어집 | AIKIT | AIKIT

AI 용어집/DPO

기법/방법론고급

DPO

직접 선호도 최적화 · Direct Preference Optimization

RLHF를 단순화하여 인간 선호도를 직접 반영하는 학습 방법

관리자|2026년 2월 28일

상세 설명

DPO (직접 선호도 최적화)

RLHF의 복잡성을 제거한 더 효율적인 학습 방식입니다.

RLHF와의 차이

RLHF: 보상 모델 학습 → 강화학습 (2단계)
DPO: 직접 선호도로 학습 (1단계)

장점

학습 프로세스 단순화
학습 안정성 향상
계산 비용 감소

태그

#강화학습#최적화

공유

수정 요청 목록으로