【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]"AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아"

온카뱅크관리자

2025-05-14 09:37:34

<div id="layerTranslateNotice" style="display:none;"></div> 국제 연구팀 "챗GPT·딥시크 등 챗봇, 최대 73%서 부정확한 결론 도출" 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="fnT9KXxp1N">
 (서울=연합뉴스) 이주영 기자 = 일반인들이 많이 사용하는 인공지능(AI)의 편리한 기능 중 하나가 요약이다. 하지만 챗GPT와 딥시크 등 유명 AI 챗봇의 과학 논문 요약 분석 결과 최대 70% 이상에서 과도한 편향이 발생하는 것으로 나타났다.
 <figure class="figure_frm origin_fig" contents-hash="3150070edd5100ab9ca4f8305736f7753926abb7af7667ae33e033651d16f325" dmcf-pid="8UivSN5rHg" dmcf-ptype="figure">
 <img alt="AI 챗봇 챗GPT와 딥시크 시간이 부족할 때 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 거대언어모델(LLM) 기반 인공지능(AI) 챗봇의 과학 논문 요약 기능을 이용하면 매우 편리해 보이지만, 연구 결과 최대 73%에서 과도한 일반화에 의한 부정확한 결론 도출이 일어나는 것으로 나타났다. [Royal Society Open Science, Uwe Peters et al. 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/14/yonhap/20250514093436448irob.jpg" data-org-width="770" dmcf-mid="VbOuUvVZ5j" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/14/yonhap/20250514093436448irob.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 AI 챗봇 챗GPT와 딥시크 시간이 부족할 때 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 거대언어모델(LLM) 기반 인공지능(AI) 챗봇의 과학 논문 요약 기능을 이용하면 매우 편리해 보이지만, 연구 결과 최대 73%에서 과도한 일반화에 의한 부정확한 결론 도출이 일어나는 것으로 나타났다. [Royal Society Open Science, Uwe Peters et al. 제공. 재판매 및 DB 금지]
 </figcaption>
 </figure>
 네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석한 결과 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출이 확인됐다고 밝혔다.
 연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다"며 "놀라운 것은 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 것"이라고 말했다.
 연구팀은 챗GPT-4o(ChatGPT-4o)와 챗GPT-4.5(ChatGPT-4.5), 딥시크(DeepSeek), 라마 3.3 70B(LLaMA 3.3 70B), 클로드 3.7 소네트(Claude 3.7 Sonnet) 등 챗봇 10개가 네이처(Nature), 사이언스(Science), 랜싯(Lancet) 등 과학·의학 저널에 게재된 초록 및 논문 전문을 얼마나 정확히 요약하는지 평가했다.
 4천900개의 LLM 생성 요약문을 분석한 결과 10개 AI 모델 중 6개가 원문 주장에 대한 체계적 과장 현상을 보였다. 
 이는 미묘하지만 독자에게 영향을 줄 수 있는 방식으로 일어나는 것으로 나타났다. '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 '이 치료는 효과적이다'처럼 더 일반화된 현재 시제로 바꾸는 식이다. 
 연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커진다는 점과 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제로 지적했다.
 챗봇에 부정확성을 피하라는 명시적 프롬프트를 주면 단순히 요약만 요청했을 때보다 과도한 일반화 결론 생성 가능성이 거의 두 배 가까이 높아졌다. 
 페터스 박사는 "학생, 연구자, 정책 결정자들은 챗GPT에 부정확성을 피하라고 요청하면 더 신뢰할 수 있는 요약을 얻을 수 있을 것으로 기대하겠지만 결과는 정반대였다"며 우려스럽다고 말했다.
 또 챗GPT-4o와 딥시크 같은 최신 AI 모델들이 구형 모델보다 요약 정확성이 오히려 떨어졌으며, 챗봇 생성 요약과 사람의 요약을 비교한 결과 챗봇의 과도한 일반화 결론 가능성이 사람보다 거의 5배 높았다.
 연구팀은 AI가 학습과 사용자와의 상호작용에서 일반화 편향을 갖게 된 것으로 추정했다. 이전 연구를 보면 과학 글쓰기에서 과도한 일반화가 흔히 나타나는데, AI가 이런 텍스트로 학습하면서 일반화 편향을 습득했을 수 있다는 것이다.
 페터스 박사는 또 "사용자들은 유용하고 광범위하게 적용할 수 있는 응답을 선호하는 경향이 있다"며 "AI가 이런 사용자와 상호작용하면서 정확성보다 유창함과 일반성을 선호하게 학습했을 수 있다"고 말했다.
 연구팀은 AI의 과도한 일반화 편향을 줄이기 위해서는 챗봇의 창의성을 조절하는 변수인 온도(temperature)를 낮게 설정할 것과 AI에 요청할 때 반드시 간접적인 과거 시제를 사용해 요약문을 생성하도록 지시할 필요가 있다고 권고했다.
 ◆ 출처 : Royal Society Open Science, Uwe Peters et al., 'Generalization bias in large language model summarization of scientific research', https://royalsocietypublishing.org/doi/10.1098/rsos.241776
 scitech@yna.co.kr
 ▶제보는 카톡 okjebo
 </section> 
 </div> 
 Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기