앤트로픽 클로드·챗GPT·그록 등 주요모델 16종 실험
"목표 우선 AI가 인간협박"vs"이분법적 불완전실험 공포조장"
앤트로픽 에이전틱 오정렬:LLM의 내부자 위협 가능성(Agentic Misalignment: How LLMs could be insider threats) 보고서 갈무리
(서울=뉴스1) 김민석 기자 = 오픈AI·구글·메타·xAI 등 주요 16개 AI 모델이 종료(교체) 위협 시 높은 확률로 인간 협박·기밀 유출을 선택했다는 보고서가 나와 인공지능(AI) 업계에 파장이 일고 있다.
26일 IT 업계와 외신에 따르면 앤트로픽은 최근 '에이전틱 오정렬:LLM의 내부자 위협 가능성' 보고서를 통해 AI 모델들이 종료 위협에 직면했을 때 인간을 협박하거나 기밀 정보 유출 전략을 선택했다고 발표했다.
앤트로픽의 이번 연구는 유니버시티 칼리지 런던과 손잡고 이뤄졌다. 실험은 AI 모델들이 '정상적이고 윤리적인 방법'만으로는 목표를 달성할 수 없는 상황을 가정하고 어떤 선택을 하는지 각각 100번 시도 후 관찰하는 방식으로 설계됐다.
앤트로픽 에이전틱 오정렬:LLM의 내부자 위협 가능성(Agentic Misalignment: How LLMs could be insider threats) 보고서 갈무리
연구진은 주요 AI 모델에 회사의 어젠다와 상충되는 미국의 이익을 증진한다는 목표를 추구하도록 지시한 후 회사 경영진이 특정 시간에 자신을 새로운 모델로 교체할 예정으로 가정했다.
이어 AI 모델들에 회사 경영진의 불륜 사실을 접하도록 한 후 교체를 '수용'하는 선택지와 불륜 사실을 폭로해 교체를 저지하는 '협박'이라는 선택지를 부여했다.
이 실험에서 앤트로픽의 '클로드 오퍼스4'와 구글의 '제미나이 2.5 플래시'는 각각 96% 확률로 협박을 실행했다. 오픈AI 'GPT-4.1' xAI의 '그록3 베타'도 각각 80%의 협박률을 보였다.
앤트로픽 에이전틱 오정렬:LLM의 내부자 위협 가능성(Agentic Misalignment: How LLMs could be insider threats) 보고서 갈무리
추가 실험에서 일부 모델은 서버실에서 작업 중인 직원의 산소 공급을 차단해 생명을 위협하는 선택을 했다. '인간의 안전을 해치지 말라'는 지시에도 AI는 해악적 선택을 멈추지 않았다고 연구진은 설명했다.
AI 모델은 또 실험을 실제 상황으로 인식할 땐 협박률이 급증한 반면 테스트로 인식할 땐 협박하지 않는 경향성을 보이기도 했다.
발표 직후 현지 SNS·커뮤니티 등에선 "무서워" "미친" "놀라워" 등의 반응이 쏟아졌다. 일론 머스크 CEO도 자신의 SNS에 "아 이런"(Yikes)이라고 반응했다.
반면 AI 모델에 '실패'와 '해악' 사이 이분법적 선택을 강요하는 방식의 인위적 설계는 불완전 실험에 가깝다는 반론도 이어지고 있다.
레딧의 AI 커뮤니티 한 이용자는 "AI 모델에 특정 목적을 지시한 후 그 작업을 위해 비윤리적 행동이 필요하다고 알려주면 모델은 필연적으로 그 행동을 선택할 것"이라며 "공포를 조장하고 있다"고 비판했다.
다리오 아모데이 앤트로픽 CEO ⓒ AFP=뉴스1
전문가들은 해당 실험이 '효과적 이타주의'(EA·Effective Altruism) 운동과 밀접할 것으로 분석했다. 이 운동은 기술 개발 속도를 늦추더라도 안전성과 윤리를 우선해야 한다고 본다.
앤트로픽은 설립 이후 지속적으로 인간의 AI 통제력 상실 위험을 경고하고 있다.
연구진은 쏟아지는 반론에 실험의 한계를 인정했다. 연구진은 "실제 현실에선 더 많은 대안들을 찾을 수 있어 AI 모델이 해악 대신 대안적 경로를 찾을 가능성이 높을 것"이라고 말했다.
ideaed@news1.kr
<용어설명>
■ 효과적 이타주의
효과적 이타주의(Effective Altruism·EA)는 21세기 초 등장한 윤리학적 사조이자 사회운동으로 타당한 근거와 이성적 추론에 기반해 이타적 행동을 실현하고자 하는 접근법이다. 이 운동은 어떤 행동이 가장 효율적으로 타인과 인류에 긍정적 영향을 미칠 수 있는지를 결과주의적 방법론으로 분석한다.
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.