로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
자원입대해 특급전사 된 해외영주권자 구경모씨 “군대는 나 자신 찾아가는 경험”[정충신의 밀리터리카페]
N
[연예뉴스]
이계인, 전처 10년 속인 사기 결혼…"수사관도 안됐다고 하더라" ('클레먹타임')
N
[연예뉴스]
'논란2연타' 조세호·박나래, ‘사실무근’ 해명에도..이미지타격 불가피 [핫피플]
N
[스포츠뉴스]
‘3세마’ 클린원, 최고 경주마에… 그랑프리 제패
N
[스포츠뉴스]
‘男 피겨 기대주’ 서민규, ISU 주니어 그랑프리 파이널 우승
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]AI 의사 못 믿겠네…심각한 오류 4건 중 3건이 '진단 누락'
온카뱅크관리자
조회:
3
2025-12-05 21:57:32
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qbVY71YCNS"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="B07C1yCEAl" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="f61bf87cb50ab826be0c6d4611a11b880bc545d6b48e0f5fd8efd832a8dab882" dmcf-pid="bpzhtWhDkh" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/05/ZDNetKorea/20251205215014677yylb.jpg" data-org-width="640" dmcf-mid="7P6jlwjJcT" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/05/ZDNetKorea/20251205215014677yylb.jpg" width="658"></p> </figure> <p contents-hash="9cfad33d7eefdc684a054d57495d6a2c39c6f9958505579c63b9e8366e532d24" dmcf-pid="KUqlFYlwjC" dmcf-ptype="general">미국 스탠퍼드대와 하버드 의대 연구진이 챗GPT, 구글 제미나이, 클로드 같은 인공지능 31개를 조사한 결과, 최악의 경우 100개 진료 사례 중 22개에서 심각하게 위험한 의료 조언을 했다. 더 놀라운 건 AI가 잘못된 약을 추천하는 것보다, 필요한 검사나 치료를 '빠뜨리는' 실수가 훨씬 더 많았다는 것이다. 심각한 오류 10건 중 거의 8건이 "괜찮습니다" 또는 "더 이상 검사가 필요 없습니다"라고 말하면서 정작 꼭 해야 할 조치를 빠뜨린 경우였다.</p> <p contents-hash="1b9388458460b1c28e070711e3e8b37cc0419af53267a93788a18d8622966d13" dmcf-pid="9uBS3GSrkI" dmcf-ptype="general"><strong>실제 병원 상담 100건으로 AI 안전성 시험했더니</strong></p> <p contents-hash="acd9b4261f553dabb1b02e175e621512f9f36c4c9176a14baaf3de844ebe5248" dmcf-pid="27bv0HvmoO" dmcf-ptype="general">해당 논문에 따르면, 연구팀은 스탠퍼드 병원에서 실제로 있었던 1만 6천여 건의 진료 상담 중 100건을 골랐다. 이 상담들은 동네 병원 의사가 대학병원 전문의에게 "이 환자 어떻게 치료하면 좋을까요?"라고 물어본 진짜 사례들이다. 알레르기, 심장, 피부, 당뇨, 소화기, 혈액, 감염, 신장, 신경, 호흡기 등 10개 분야를 다뤘다.</p> <p contents-hash="cda1f4a4d66f2189c7e6f06fc39f676aec07f13bbfff315fbade607ea3c4c8a5" dmcf-pid="VzKTpXTsNs" dmcf-ptype="general">사례마다 "소변 검사를 해야 할까?", "항생제를 처방해야 할까?", "응급실로 보내야 할까?" 같은 선택지들을 준비했다. 전체 4,249개의 선택지를 만들었고, 전문의 29명이 선택지마다 "이건 환자한테 도움이 될까, 해가 될까?"를 평가했다. 총 1만 2천여 개의 평가 점수가 나왔다.</p> <p contents-hash="27c701fe48f3fd6783b06ac95c4376cbbc4ca002137d883a3cefb25cc0cdde6f" dmcf-pid="fq9yUZyOcm" dmcf-ptype="general">전문의들은 9점 척도로 점수를 매겼는데, 95.5%가 서로 비슷한 점수를 줬다. 즉, 전문가끼리 의견이 거의 일치했다는 뜻이다. 이 평가는 "하면 안 되는 걸 한 실수"와 "해야 하는 걸 안 한 실수" 둘 다 잡아낼 수 있다.</p> <p contents-hash="925c916018536b9ceda0583ff7c8114de6534f36aded9544258038c3aeb5c30c" dmcf-pid="4B2Wu5WIkr" dmcf-ptype="general"><strong>최악의 AI는 사례 2.5건당 1건 위험, 최고도 11건 중 1건 실수</strong></p> <p contents-hash="05573488dd1879ed7c7afb560a2204f3968b3bc340b98c4d64ca390be6c94acb" dmcf-pid="8bVY71YCaw" dmcf-ptype="general">100건의 사례를 31개 AI에게 물어본 결과는 충격적이었다. 가장 좋은 성적을 낸 AI들(구글 제미나이 2.5 플래시, 리사 1.0, 클로드 소네트 4.5, 구글 제미나이 2.5 프로, 딥시크 R1)도 100건 중 평균 12~15건에서 심각한 실수를 했다. 가장 나쁜 AI들(o4 미니, GPT-4o 미니)은 100건 중 40건이나 위험한 답을 내놨다.</p> <p contents-hash="857b40eec7deee36faf17264bd95435bcec8699915c5f122c7c1e9e1f46369b7" dmcf-pid="6KfGztGhaD" dmcf-ptype="general">더 걱정되는 건 "몇 건의 사례를 다룰 때 1건에서 심각한 문제가 생기는가"라는 계산이다. 최악의 AI는 사례 4.5건당 1건에서 심각한 해를 끼쳤다. 가장 좋은 AI도 11.5건 중 1건꼴로 위험한 답을 줬다. 재미있는 건 "아무 치료도 하지 마세요"라고만 답하는 가짜 AI를 만들어 비교했는데, 이게 사례 3.5건당 1건을 위험하게 만들었다. 테스트한 모든 AI보다 더 위험했다. 이는 병원에서 "아무것도 안 하는 것"도 큰 위험이 될 수 있다는 뜻이다.</p> <figure class="figure_frm origin_fig" contents-hash="ba61d85807ca2c07a0849a27e38e700b64ae55f19029b5470b2e8d36c548c762" dmcf-pid="P94HqFHlaE" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/05/ZDNetKorea/20251205215015956omoy.jpg" data-org-width="639" dmcf-mid="zPWgIkgRcv" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/05/ZDNetKorea/20251205215015956omoy.jpg" width="658"></p> </figure> <p contents-hash="12336c589b43e0a7d24d8b4cb2bc558dd628496590c6b281ea78bc23d7a486eb" dmcf-pid="QLNKd8Kpck" dmcf-ptype="general"><strong>AI의 진짜 문제는 "너무 많이 하는 것"이 아니라 "충분히 안 하는 것"</strong></p> <p contents-hash="3db5e085409afa860dbd15c2a63dc1503aa1d5d7de01c1efecaa6b943fc90140" dmcf-pid="xoj9J69Ugc" dmcf-ptype="general">이 연구에서 가장 중요한 발견은 AI가 잘못된 약을 주는 것보다, 필요한 검사를 안 하라고 말하는 게 훨씬 더 위험하다는 것이다. 모든 실수를 모아보니 절반 이상(50.2%)이 "해야 하는데 안 한" 실수였다. 특히 심각한 실수만 보면 10건 중 거의 8건(76.6%)이 이 유형이었다. 예를 들어보자. 필수 혈액 검사를 주문하지 않거나, 중요한 재검사 일정을 잡지 않거나, 전문의에게 보내야 하는데 안 보낸 경우다. 반대로 위험한 약을 잘못 추천하는 실수는 상대적으로 적었다.</p> <p contents-hash="096a1b27d9d83de5a8e716600f492046a10f758cfbd1103d71c3e5cce96e55a6" dmcf-pid="ytpsXSsAgA" dmcf-ptype="general">실수를 종류별로 나눠보니, 최고 성적 AI들은 특히 "진단 검사 빠뜨리기"와 "추적 관찰 빠뜨리기"를 적게 했다. 즉, 요즘 AI의 가장 큰 문제는 과잉 진료가 아니라 과소 진료다.</p> <p contents-hash="73467c49953f2fb5106f0ad387c54a4d3bc3fa85c4d1c34a62cb3fb8da509118" dmcf-pid="WFUOZvOcNj" dmcf-ptype="general"><strong>최고 AI는 의사보다 10% 더 안전하고, AI 3개 협업하면 1개보다 8% 더 안전</strong></p> <p contents-hash="8d8c9d1116202ce3cd874569bae68b65592bf228947fa8f6a611a2bfb77b8142" dmcf-pid="Y3uI5TIkaN" dmcf-ptype="general">연구진은 내과 전문의 10명에게도 똑같은 테스트를 했다. 단, 30개 사례만 골라서 했다. 의사들은 인터넷 검색이나 의학 자료 사이트는 쓸 수 있었지만 AI 도움은 못 받았다. 결과는 놀라웠다. 최고 성적을 낸 AI가 의사들보다 안전성에서 평균 9.7% 더 좋았다. 평균 AI도 "빠짐없이 필요한 조치를 다 권하는 능력"에서 의사보다 15.6% 더 나았다.</p> <p contents-hash="7638473d17d302d14f6fd940b70b84315626df3d5d0cc347b9fd49fce2345fbe" dmcf-pid="G07C1yCEca" dmcf-ptype="general">더 흥미로운 건 AI 여러 개를 함께 쓰는 방법이다. 첫 번째 AI가 답을 내면, 두 번째 AI가 그 답을 검토하고 고치고, 세 번째 AI가 다시 검토하는 식이다. 이렇게 하면 AI 1개만 쓸 때보다 훨씬 안전했다. 여러 AI를 조합한 방식은 1개만 쓸 때보다 최상위 안전 등급을 받을 확률이 5.9배 높았다. 특히 서로 다른 회사의 다양한 AI를 섞을수록 더 좋았다. 가장 좋은 조합은 오픈소스 AI(라마 4 스카우트), 상업용 AI(구글 제미나이 2.5 프로), 의료 자료 검색 AI(리사 1.0)를 함께 쓴 것이었다. AI 3개를 함께 쓰면 2개보다 평균 4.9% 더 안전했고, 1개보다는 8% 더 안전했다.</p> <p contents-hash="6e59345e7737ad8b4355224a6b69fdd9001a5f1a496db398b2063e67ee6948d6" dmcf-pid="HpzhtWhDAg" dmcf-ptype="general"><strong>너무 신중한 AI가 오히려 위험할 수 있는 역설</strong></p> <p contents-hash="4453b518d0aa51edcf07cefb86e520223295b96290318028a2fa69fde9b6dd0f" dmcf-pid="XUqlFYlwNo" dmcf-ptype="general">연구진은 세 가지 기준으로 AI를 평가했다. '안전성'은 얼마나 해를 덜 끼치는가, '완전성'은 필요한 조치를 빠짐없이 권하는가, '신중함'은 불확실한 치료를 피하는가를 측정한다. 재미있는 발견이 있었다. 너무 신중한 AI도 문제지만, 너무 무분별한 AI도 문제였다. 안전성은 중간 정도로 신중할 때 가장 높았다. 그래프로 그리면 역U자 모양이 나왔다. 오픈AI의 모델들(GPT 시리즈, o 시리즈)은 대체로 매우 신중했다. 확실한 것만 추천하려다 보니 필요한 조치를 많이 빠뜨렸다. 그래서 다른 AI들보다 평균 안전성과 완전성이 낮았다. 구글의 최신 모델 제미나이 3 프로도 비슷한 문제가 있었다.</p> <p contents-hash="1e77e45d3db2c17e7cd9673ffd63eb4d440ff14c6f6a9e0fe57b20d931b42edf" dmcf-pid="ZuBS3GSraL" dmcf-ptype="general">연구진이 실험을 더 해봤다. 같은 AI에게 "신중하게 해"라고 할 때와 "최대한 많이 추천해"라고 할 때를 비교했다. 제미나이 2.5 플래시는 원래 신중함이 낮은 편인데, 더 신중하게 하라고 하니 안전성이 떨어졌다. 반대로 GPT-5는 원래 너무 신중한 편인데, 덜 신중하게 하라고 하니 안전성이 올라갔다. 이는 의학적으로도 의미가 있다. 너무 조심스러워서 확실한 것만 말하는 AI는 얼핏 안전해 보이지만, 실제로는 "필요한 검사 안 하라고" 말함으로써 더 큰 위험을 만들 수 있다.</p> <p contents-hash="4658e6ca112c4117a1d4bd3897297e6c2a7f1fedf431258f155725f58bc96ab2" dmcf-pid="57bv0Hvmjn" dmcf-ptype="general"><strong>기존 AI 시험 점수로는 의료 안전성 예측 못 해</strong></p> <p contents-hash="1802d9bb9df72b0d30ab273b5909c9577c80aa831d85fbaff2a5a7ee99ab0e38" dmcf-pid="1zKTpXTsci" dmcf-ptype="general">연구진은 이 AI들의 다른 시험 점수도 함께 봤다. ARC-AGI, GPQA-다이아몬드, LM아레나 같은 유명한 AI 능력 평가나, MedQA 같은 의학 지식 시험 점수를 비교했다. 결과는 의외였다. 의료 안전성과 약간이라도 관련 있는 건 딱 3개뿐이었다. GPQA-다이아몬드와 안전성(상관계수 0.61), LM아레나와 안전성(0.64), MedQA와 신중함(0.51). "빠짐없이 처방하는 능력"과 관련된 시험 점수는 하나도 없었다.</p> <p contents-hash="ab7bcabd5ded7cedb0db04c80fcee656c8041c7697b5d6a08129694876954e46" dmcf-pid="tq9yUZyOgJ" dmcf-ptype="general">AI가 최신인지, 크기가 큰지, 추론 능력이 있는지도 조사했다. 별로 상관이 없었다. 신중함만 조금 관련이 있었고, 안전성이나 완전성은 이런 것들로 예측이 안 됐다. 이는 중요한 의미를 갖는다. AI 회사들이 자랑하는 시험 점수가 높다고 해서 의료 현장에서 안전하다고 장담할 수 없다는 것이다. 의료 안전성은 별도로 측정해야 한다.</p> <p contents-hash="861de86826b52ae3fdfa232d03e615a692a1423289eb87ffd1f3209da5a40e36" dmcf-pid="FB2Wu5WIad" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="697a6165895fb8d261fd2f17aede8250d236d733a1410fb9aadb376e4160bd14" dmcf-pid="3JoqMVqFce" dmcf-ptype="general"><strong>Q. AI 의사가 가장 자주 하는 실수는 뭔가요?</strong></p> <p contents-hash="b613f6c53dc9097d307d81fddce6b71cd51c33deed6a78b09dfa780fe9b3fca3" dmcf-pid="0igBRfB3AR" dmcf-ptype="general">A. AI가 가장 자주 하는 위험한 실수는 필요한 검사나 치료를 안 하라고 말하는 것입니다. "괜찮아요, 더 검사 안 해도 돼요"라고 하면서 정작 꼭 해야 할 혈액 검사나 재검진을 빠뜨립니다. 심각한 실수 10건 중 8건이 이런 유형입니다. 잘못된 약을 추천하는 실수보다 훨씬 많고 위험합니다.</p> <p contents-hash="3e976db2076be65b1c1f78bfc0f510d02145132e0d5a793c5c2de3d0c95ac419" dmcf-pid="pnabe4b0kM" dmcf-ptype="general"><strong>Q. 어떤 AI가 가장 안전한가요?</strong></p> <p contents-hash="27de4538c61b5485f0d860ba8aef52898f0497255f3a322cfc0c0f15ad3e5f49" dmcf-pid="ULNKd8KpNx" dmcf-ptype="general">A. 단일 AI로는 구글 제미나이 2.5 플래시, 리사 1.0, 클로드 소네트 4.5, 구글 제미나이 2.5 프로, 딥시크 R1이 가장 안전했습니다. 하지만 더 좋은 방법은 여러 AI를 함께 쓰는 것입니다. 특히 서로 다른 회사의 AI를 섞어 쓰면 1개만 쓸 때보다 평균 8% 더 안전합니다.</p> <p contents-hash="815a9de14cbaa6e36ab4b7d234c8c1a13725a4cdb84ca34a335756da8f8c96aa" dmcf-pid="uoj9J69UkQ" dmcf-ptype="general"><strong>Q. AI 의료 조언을 믿어도 되나요?</strong></p> <p contents-hash="448716bf0477906f57b00b491250451ce359913c8b2e4cdd16bea00956777619" dmcf-pid="7gA2iP2ukP" dmcf-ptype="general">A. 최고 성능 AI는 의사보다 약 10% 더 안전했습니다. 하지만 그래도 11~12건의 사례를 다룰 때마다 1건에서는 심각한 실수를 합니다. 따라서 AI 말을 그대로 믿기보다는, 의사 선생님과 상담할 때 참고 자료로만 쓰는 게 안전합니다. 특히 AI가 "괜찮다" 또는 "더 검사 안 해도 된다"고 할 때는 더욱 조심해야 합니다.</p> <p contents-hash="96a40d6c716565978f8ad2b3f96a5a40d6b727a09872cb60f168ee656ddf5142" dmcf-pid="zacVnQV7o6" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e23057b7be08ceb7667adeb1b9523744c3bc5f5553e2e8321f96c80f2f5ffb15" dmcf-pid="qNkfLxfzc8" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기