윤리/안전중급
Guardrails
가드레일 · Guardrails
AI 모델이 유해하거나 부적절한 출력을 하지 않도록 제한하는 메커니즘
상세 설명
Guardrails (가드레일)
AI의 "안전 울타리"입니다.
종류
- Content Filtering: 유해 콘텐츠 탐지
- Prompt Injection 방어: 악의적인 입력 차단
- Output Validation: 생성 후 검증
- Rate Limiting: 남용 방지
트렌드
기술적 제한에서 RLHF 기반 근본적 정렬로 이동
태그
#안전성#필터링#보호