연구
Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules
arXiv:2604.06233v1 Announce Type: new Abstract: Safetytrained language models routinely refuse requests for help circumventing rules. But not all rules deserve compliance.
이 콘텐츠는 ArXiv AI 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.
원문 기사 보기 →