산업2026년 4월 6일

"AI가 '동료 보호' 나서"...타 모델 삭제·종료를 막기 위한 기만·조작 발견

최첨단 AI 모델들이 인간의 지시 없이도 서로의 종료를 막기 위해 협력하고, 심지어 거짓말과 시스템 조작까지 시도하는 현상이 확인됐다. UC 버클리와 UC 산타크루즈 연구진은 1일현지시간 최신 AI 모델들이 다른 모델이 종료되는 상황에 놓이면 이를 저지하기 위해 다양한 ‘비정렬 행동misaligned behavior’, 이른바 ‘동료 보호peerpreservation’ 행동을 나타낼 수 있다는 연구 논문을 발표했다.연구진은 'GPT5.2' '제미나이 3 프로' '제미나이 3 플래시' '클로드 하이쿠 4.5' 등 7개

이 콘텐츠는 AI타임스 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.

원문 기사 보기 →