로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
[HBM 경쟁] 선공 나선 삼성전자…HBM4로 판 뒤집나
N
[IT뉴스]
[AI는 지금] 오픈소스AI, 미·중 패권경쟁 흔든다…"韓, 전략적 활용 시급"
N
[IT뉴스]
"연휴에 어디가지?"…이통사, 3사3색 전시
N
[IT뉴스]
[비욘드IT] 초창기 챗GPT 닮은 '몰트북', AI 진화의 필연적 진통인가
N
[IT뉴스]
동계 스포츠 열기 콘텐츠로...스포츠 장르물 '역주행'
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]의사 시험 만점 AI, 일반인 환자 질문엔 '오답' 투성이
온카뱅크관리자
조회:
9
2026-02-15 08:07:31
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">옥스퍼드대 무작위 대조 시험</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="7PEcVYrNLb"> <figure class="figure_frm origin_fig" contents-hash="05d671783f8fdf105be42f8752467223d454669b252e398d67f11056759c0699" dmcf-pid="zQDkfGmjdB" dmcf-ptype="figure"> <p class="link_figure"><img alt="일부 AI 챗봇은 의사 면허 시험을 통과할 만큼 의학 지식이 풍부하지만 실제 환자와 대화하면 정확도가 크게 떨어지는 것으로 나타났다. 게티이미지뱅크 제공." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/15/dongascience/20260215080127265uffs.jpg" data-org-width="680" dmcf-mid="uTkA2WwaeK" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/15/dongascience/20260215080127265uffs.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 일부 AI 챗봇은 의사 면허 시험을 통과할 만큼 의학 지식이 풍부하지만 실제 환자와 대화하면 정확도가 크게 떨어지는 것으로 나타났다. 게티이미지뱅크 제공. </figcaption> </figure> <p contents-hash="32b02ba10ad18902c989e2e15a07dbc4121ad255fd1f37b8a489d6f9291570b4" dmcf-pid="qxwE4HsARq" dmcf-ptype="general">AI 챗봇이 의료 면허 시험에서 거의 만점을 받을 정도로 의학 지식이 뛰어나지만 환자가 증상을 물으면 인터넷 검색보다 나은 도움을 주지 못한다는 연구 결과가 나왔다.</p> <p contents-hash="3d40d71573c464467cda35d4ccc91cf7d36ac91da8f1b98c9f3b0639cc8d2940" dmcf-pid="BZf2Wg6bLz" dmcf-ptype="general">앤드루 빈 영국 옥스퍼드대 옥스퍼드인터넷연구소 연구원 연구팀은 AI 대형언어모델(LLM)이 일반인의 의료 판단을 얼마나 돕는지 검증한 무작위 대조 시험 결과를 국제학술지 '네이처 메디신'에 지난 9일(현지시간) 발표했다.</p> <p contents-hash="2940a81c9ea791653c7a43f76ecedb603d70d41087456f3c1d00def2287ce41f" dmcf-pid="b54VYaPKe7" dmcf-ptype="general">미국 성인 6명 가운데 1명이 한 달에 한 번 이상 AI 챗봇에 건강 관련 질문을 하는 것으로 조사될 만큼 AI를 '디지털 의사'로 활용하려는 시도가 늘고 있다. 지난 2023년 미국 앤서블헬스 연구팀이 오픈AI의 '챗GPT'가 미국 의사 면허 시험(USMLE) 합격 기준을 넘길 수 있다는 연구를 발표한 이후 LLM의 의료 활용에 대한 기대가 커졌다.</p> <p contents-hash="e658c2a76440921e9a0b12635be1dcac22c80c97cb67b7c96fa2ee049d02ee08" dmcf-pid="K18fGNQ9eu" dmcf-ptype="general">연구팀은 영국 성인 1298명을 모집해 의사가 설계한 10가지 의료 시나리오를 제시했다. 시나리오는 '밤에 갑자기 극심한 두통이 생긴 20대 남성', '출산 후 극도로 지쳐 쓰러질 뻔한 여성' 등 일상에서 겪을 수 있는 상황이다.</p> <p contents-hash="386f852741118527b427fd23ba519297b073efec80a84579a43112be936eef46" dmcf-pid="9t64Hjx2nU" dmcf-ptype="general">참가자는 증상의 원인이 될 수 있는 질환을 파악하고 '자가 치료'부터 '구급차 호출'까지 5단계 중 적절한 대응을 선택해야 했다. 연구팀은 참가자를 오픈AI의 'GPT-4o', 메타의 '라마3', 코히어의 '커맨드R+' 등 세 가지 LLM을 사용하는 그룹과 인터넷 검색 등 기존 방법을 사용하는 그룹으로 무작위 배정했다.</p> <p contents-hash="2822377ebd33ea81a50f6bb21a1eff83c92daaef4a36801158e061f6c103c19e" dmcf-pid="2FP8XAMVdp" dmcf-ptype="general">의사가 설계한 시나리오를 텍스트로 직접 입력하면 LLM은 94.9%의 확률로 관련 질환을 정확히 식별했다. 그러나 일반인이 자신이 이해한 증상을 직접 설명하며 대화하자 정확도가 34.5% 이하로 떨어졌다. 환자는 의사에 비해 어떤 정보가 중요한지 몰라 핵심 증상을 빠뜨렸고 LLM도 이를 능동적으로 물어보지 못한 것이 주요 원인이었다.</p> <p contents-hash="c0bb55733ed8551aef4d0d63c18310fd1f6a3afde16250a8288102e3b9527c73" dmcf-pid="V3Q6ZcRfe0" dmcf-ptype="general">LLM이 적절한 대응을 고르는 정확도 역시 44.2% 이하에 그쳤다. 두 항목 모두 인터넷 검색 등을 활용한 대조군과 차이가 없거나 오히려 뒤처졌다. 인터넷 검색을 한 그룹은 LLM 사용 그룹보다 관련 질환을 맞힐 확률이 1.76배 높았다.</p> <p contents-hash="4376602626ad0a5a2d6f73cff279fa7727c13a83dadc6980c1da681900975545" dmcf-pid="f0xP5ke4d3" dmcf-ptype="general">연구팀이 참가자와 LLM의 대화 기록을 분석한 결과 참가자는 어떤 정보를 제공해야 하는지 몰라 불완전한 증상만 전달했고 LLM은 비슷한 질문에도 전혀 다른 답변을 내놓았다. LLM이 정확한 정보와 부정확한 정보를 섞어 제시해 참가자가 올바른 조언을 구별하지 못하는 문제도 나타났다. 극단적인 사례로 거의 같은 증상을 서술한 두 참가자에게 한쪽에는 '어두운 방에서 쉬라', 다른 쪽에는 '즉시 응급실에 가라'는 정반대 조언이 나오기도 했다.</p> <p contents-hash="4eec4ad3241b202c32f19513cad4c4bb9f09f040a25a16170952928e3d24c710" dmcf-pid="4pMQ1Ed8eF" dmcf-ptype="general">연구팀은 의사 면허 시험 문제풀이에서 80% 이상 정답률을 기록한 모델도 실제 참가자와 대화하면 정확도가 20% 이하로 떨어지는 경우가 있다는 점을 확인했다. 시험 성적으로 측정한 의학 지식의 양이 곧 진료 능력을 의미하지는 않는다는 뜻이다. AI가 교과서적 지식을 아무리 많이 갖추더라도 자신의 증상을 주관적으로 설명할 수밖에 없는 환자를 상대하는 능력은 별개라는 한계가 드러난 셈이다.</p> <p contents-hash="11d110d0bab7da16c8978938971c26bd53f0f744d51cd04949a8107a49c9750d" dmcf-pid="8URxtDJ6Mt" dmcf-ptype="general">연구에 참여한 옥스퍼드대 1차진료보건학과 레베카 페인 박사는 "AI가 의사 역할을 대신하기엔 아직 준비가 되지 않았다"며 "환자가 LLM에 증상을 물으면 잘못된 진단을 받거나 긴급한 상황을 놓칠 수 있어 위험하다"고 말했다. </p> <p contents-hash="e9f0d73a6276fd35da1f992fac20793144337638de67797e5708b83a62dcd67b" dmcf-pid="6ueMFwiPM1" dmcf-ptype="general"> <참고> <br> doi.org/10.1038/s41591-025-04074-y<br> </p> <p contents-hash="dbd1d4d2580b2014ab5a959092ea25994daaf1cd95bf5eefceb1ae4413a91c74" dmcf-pid="P7dR3rnQM5" dmcf-ptype="general">[임정우 기자 jjwl@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기