기법/방법론고급
RLHF
인간 피드백 강화학습 · Reinforcement Learning from Human Feedback
인간의 피드백을 통해 모델 출력의 품질을 개선하는 학습 방식
상세 설명
RLHF (인간 피드백 강화학습)
ChatGPT와 Claude를 학습시킨 핵심 기법입니다.
프로세스
- 모델이 여러 답변 생성
- 인간이 답변 평가 (랭킹)
- 보상 모델 학습
- 강화학습으로 모델 최적화
효과
- 더 안전하고 유용한 모델
- 사용자 기대에 부합하는 응답
- 해롭거나 거짓된 정보 감소
태그
#강화학습#모델학습#안전성