홈 뉴스 인사이트 AI 도구 용어집 트렌드 가이드

로그인 회원가입

AI 트렌드와 인사이트를 한곳에서. 최신 AI 뉴스, 커뮤니티, 도구 디렉토리.

탐색

뉴스
인사이트
AI 도구

커뮤니티

인사이트 작성
내 프로필

정보

서비스 가이드
개인정보 처리방침
이용약관
문의: hello@ai-kit.org

© 2026 AIKIT. All rights reserved.

RLHF - AI 용어집 | AIKIT | AIKIT

AI 용어집/RLHF

기법/방법론고급

RLHF

인간 피드백 강화학습 · Reinforcement Learning from Human Feedback

인간의 피드백을 통해 모델 출력의 품질을 개선하는 학습 방식

관리자|2026년 2월 28일

상세 설명

RLHF (인간 피드백 강화학습)

ChatGPT와 Claude를 학습시킨 핵심 기법입니다.

프로세스

모델이 여러 답변 생성
인간이 답변 평가 (랭킹)
보상 모델 학습
강화학습으로 모델 최적화

효과

더 안전하고 유용한 모델
사용자 기대에 부합하는 응답
해롭거나 거짓된 정보 감소

태그

#강화학습#모델학습#안전성

공유

수정 요청 목록으로