로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
이제훈, 버럭했다..."내 돈 내가 쓰겠다는데!" (틈만나면)[종합]
N
[연예뉴스]
"큰아버지 여자까지 건드려" 양녕대군, 왕세자 폐위된 충격 이유 ('벌거벗은 한국사2') [종합]
N
[연예뉴스]
유재석, 방송 최초 '웨이팅 알러지' 극복?..이제훈 맛집에 첫 도전[틈만나면4][★밤TView]
N
[연예뉴스]
"감자처럼 굴러들어왔다" 김다미 아들 권은성, 귀여움 폭발
N
[연예뉴스]
'58세' 김성령, 시술 없이 "10살 어려져" 비결 봤더니…하지원도 "어떻게 했어?" (당일배송)
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]코로나19는 정확, 경제는 취약?…5대 AI 모델 팩트체킹 능력 비교
온카뱅크관리자
조회:
65
2025-03-17 11:47:27
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="UUKJoR41AE"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="u4REmAnbgk" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="aa1b4b5335b16a5848ba205fe0df51e3307cbbd548dc5e605bb0c65cdc624585" dmcf-pid="78eDscLKNc" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/17/ZDNetKorea/20250317113728234hfau.jpg" data-org-width="640" dmcf-mid="FuAhTOkPom" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/17/ZDNetKorea/20250317113728234hfau.jpg" width="658"></p> </figure> <p contents-hash="b7504b984785742e03d62a2f9d28bf12b45d8bea71d440620ab148fba5dd27c9" dmcf-pid="z6dwOko9kA" dmcf-ptype="general"><strong>LLM, 거짓 정보 탐지에는 강하지만 전반적 성능은 아직 미흡</strong></p> <p contents-hash="5941f9ea7c4e89071309fc0667bc8304b3dafef2bef397e67f7160501eadec89" dmcf-pid="qPJrIEg2jj" dmcf-ptype="general">생성형 AI를 기반으로 한 대형 언어 모델(LLM)이 정치 정보의 진위를 판별하는 팩트체킹 영역에서 어떤 역할을 할 수 있을지 관심이 커지고 있다. 최근 ChatGPT와 같은 대화형 AI의 등장으로 정보의 진위를 자동으로 판별하는 기술에 대한 기대가 높아지고 있는 가운데, 바이젠바움 연구소와 베른 대학 연구팀이 5개 주요 LLM의 팩트체킹 능력을 체계적으로 평가한 연구 결과를 발표했다.</p> <p contents-hash="c9526bc8b733af0dbe99279dc1a0bf9d38143d73ccdae5273e0d93ccd35af0aa" dmcf-pid="BQimCDaVaN" dmcf-ptype="general">연구팀은 ChatGPT-4, Llama 3(70B), Llama 3.1(405B), Claude 3.5 Sonnet, Google Gemini 등 5개 LLM을 대상으로 전문 팩트체커가 이미 검증한 1만 6,513개의 정치 정보 진술문에 대한 진위 판별 능력을 테스트했다. 주제 모델링과 회귀 분석을 통해 진술문의 주제나 모델 유형이 판별 정확도에 어떤 영향을 미치는지 체계적으로 분석했다.</p> <p contents-hash="64700921a5d70772c834b46adc587f397a2fb1a57956f29c0bbfaebc57640830" dmcf-pid="bxnshwNfca" dmcf-ptype="general"><strong>정확도는 챗GPT와 제미나이가 앞서… 거짓 정보 탐지 정확도 최대 80%</strong></p> <p contents-hash="87f6067f676c0c68272b0dfafda4eab02394ea4dc54f8ccf6af7feca782b3c41" dmcf-pid="KMLOlrj4kg" dmcf-ptype="general">연구 결과에 따르면 ChatGPT-4와 Google Gemini가 다른 모델보다 전반적으로 높은 정확도를 보였다. 특히 모든 모델이 참인 정보보다 거짓 정보를 탐지하는 데 더 강점을 보였는데, 특히 코로나19, 미국 정치 논쟁, 사회 이슈와 같은 민감한 주제에서 더 높은 정확도를 나타냈다.</p> <p contents-hash="8ff9b6b6fd83389cc21282980efd805e3098cfc7b21a6e9daeabd75acd0761c6" dmcf-pid="9RoISmA8oo" dmcf-ptype="general">이는 모든 LLM이 공중 보건이나 정치인과 관련된 민감한 주제에 대해 가드레일(안전장치)을 설정했을 가능성을 시사한다. 이런 주제에 대한 높은 정확도는 훈련 데이터에 관련 거짓 정보가 더 많이 포함되었을 가능성도 있지만, GPT 모델이 건강 관련 주제에서 높은 정확도를 보인다는 이전 연구와도 일치하는 결과다.</p> <figure class="figure_frm origin_fig" contents-hash="809a49142603ff980e1f93b0ef1321cf406701876ca76a180b96017e2b72406c" dmcf-pid="2egCvsc6jL" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/17/ZDNetKorea/20250317113729550cuqp.jpg" data-org-width="640" dmcf-mid="p108xVzTAD" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/17/ZDNetKorea/20250317113729550cuqp.jpg" width="658"></p> </figure> <p contents-hash="3303d5b68889096894e453f5ba824b2fbce44edc879337c9f577bd396c52cee7" dmcf-pid="VdahTOkPjn" dmcf-ptype="general"><strong>코로나19는 133% 더 정확하게, 경제 주제는 70% 더 부정확하게 판별</strong></p> <p contents-hash="6d18ef6c37db573df860eccff4d2c9199a0fab86bf6ad41d4d4c28ccd023f075" dmcf-pid="fJNlyIEQNi" dmcf-ptype="general">모든 LLM은 전반적으로 '혼합(MIXTURE)' 범주의 진술문보다 '거짓(FALSE)' 범주의 진술문을 더 정확하게 식별했다. 특히 진위 여부가 명확한 극단적 사례보다 부분적 사실과 부분적 거짓이 혼합된 복잡한 진술을 평가하는 데 어려움을 겪었다.</p> <p contents-hash="f4faa740df348748f59d71dcaf064e8389e9ebc6b21b2d0016d65ef093abbf51" dmcf-pid="4ijSWCDxaJ" dmcf-ptype="general">흥미롭게도 연구진은 LLM 간 성능 차이가 상당하다는 점을 발견했다. 예를 들어 Llama 모델은 진술문이 '참'인지 '거짓'인지 혹은 '혼합'인지에 관계없이 '참'으로 판정하는 경향이 있었다. 이는 모델들의 기반이 되는 훈련 데이터가 성능에 깊은 영향을 미친다는 점을 보여준다.</p> <p contents-hash="2d0e355ef730734c154605ca325973a00a58924503ea9fd0fc93c9e3ebda84d5" dmcf-pid="8DCtpZTNAd" dmcf-ptype="general">또한 미국 재정 문제나 경제 관련 주제에서는 모든 LLM이 거짓 정보를 식별하는 정확도가 낮았다. 이는 특정 주제에 대한 훈련 데이터의 부족이나 주제별 가드레일의 차이에서 기인했을 가능성이 있다.</p> <p contents-hash="438aa91ca868d6631298aec024242a1737d19b330f3cee029b1309a3b92fd13c" dmcf-pid="6whFU5yjke" dmcf-ptype="general"><strong>더 큰 모델이 팩트체킹도 더 정확하게 수행</strong></p> <p contents-hash="995dd14ec8174796519d1f9777e1dd42658c1916c0bef5225ce2d80252a933ca" dmcf-pid="Prl3u1WAcR" dmcf-ptype="general">연구팀은 LLM의 팩트체킹 성능이 모델의 아키텍처 및 파라미터 규모와 직접적인 관련이 있다고 지적했다. Llama 3.1(405B)이 Llama 3(70B)보다 모든 카테고리에서 더 나은 성능을 보인 것이 이를 증명한다. 이는 더 많은 파라미터로 훈련된 모델이 복잡한 팩트체킹 작업에서 더 좋은 성능을 발휘한다는 것을 의미한다.</p> <p contents-hash="1471fd34b363e0021eb054e752d9bd5a487cf90f1a5bb6bb5954d60c6f179500" dmcf-pid="QmS07tYckM" dmcf-ptype="general">연구진은 LLM의 팩트체킹 능력 향상을 위해 목표화된 사전 훈련과 미세 조정이 필요하다고 제안했다. 특히 코로나19와 미국 정치 관련 주제에서 모든 LLM이 높은 정확도를 보인 점에 주목하며, 가드레일 설정이 출력의 정확성을 보장하는 유망한 전략이 될 수 있다고 밝혔다.</p> <p contents-hash="bc059acfd3197f0c3d160fcb8dbcb2381a9cb013fe061a4b6398176b71c0002a" dmcf-pid="xsvpzFGkax" dmcf-ptype="general">하지만 이러한 가드레일은 변화하는 사회정치적 맥락에 맞춰 지속적인 조정이 필요하다는 도전과제도 함께 존재한다. 연구팀은 또한 ClaimsKG 데이터셋이 미국 중심적이라는 점을 한계로 지적하며, 다른 사회정치적 맥락이나 언어에서는 LLM 성능이 다를 수 있다고 경고했다.</p> <p contents-hash="e6893e1b0eeb94afb74e3585a7d5a320701b31e392b699c7ea12ee28cf097255" dmcf-pid="y9PjEge7cQ" dmcf-ptype="general"><strong>FAQ</strong></p> <p contents-hash="cb44fac15fee4339f35489519307ca355d0aa56f1f590381142b0623067dde69" dmcf-pid="W2QADadzkP" dmcf-ptype="general"><strong>Q: 생성형 AI가 팩트체킹을 완전히 자동화할 수 있을까요?</strong></p> <p contents-hash="16c8d3e14e81d67505e6615b46184616c4d616ec73795c60f468a35f8fc65cd8" dmcf-pid="YVxcwNJqj6" dmcf-ptype="general">A: 현재로서는 어렵습니다. 이번 연구에서 보듯 대형 언어 모델(LLM)은 특히 거짓 정보 탐지에 강점을 보이지만, 전반적인 정확도는 여전히 제한적입니다. LLM은 팩트체킹을 보조하는 도구로 활용하되, 전문가의 검증이 여전히 필요합니다.</p> <p contents-hash="b508e8a6f46447cf80037e0ac15c8f558ab029a85fcd7fff8d30c9e1bae33379" dmcf-pid="GfMkrjiBN8" dmcf-ptype="general"><strong>Q: 왜 AI는 참인 정보보다 거짓 정보를 더 잘 탐지하나요?</strong></p> <p contents-hash="21fd130d71b19662184f3db8ef2ce051d96020f141fb9779b4fe0f7a64db3733" dmcf-pid="H4REmAnbk4" dmcf-ptype="general">A: 연구에 따르면 이는 훈련 데이터의 특성과 관련이 있을 수 있습니다. 예를 들어 ChatGPT-4는 팩트체크된 거짓 정보가 더 많이 포함된 데이터로 훈련되었을 가능성이 있고, 특히 코로나19나 정치 논쟁과 같은 민감한 주제에 대해서는 가드레일(안전장치)이 설정되어 있을 수 있습니다.</p> <p contents-hash="496bdf775c30139969f1a895b19bc580dab7403ebad5bad9f3ae227028492cd6" dmcf-pid="X8eDscLKaf" dmcf-ptype="general"><strong>Q: 어떤 주제에서 AI 팩트체킹이 가장 정확한가요?</strong></p> <p contents-hash="23f2c582c0711c7c1bfc793f9309903a0e34d8114359519ba8cbb2b1780958ff" dmcf-pid="Z6dwOko9NV" dmcf-ptype="general">A: 이번 연구에서는 코로나19, 미국 정치 논쟁, 사회 이슈와 같은 민감한 주제에서 AI가 더 정확한 팩트체킹을 수행했습니다. 반면 미국 경제나 재정 정책 관련 주제에서는 정확도가 낮았습니다. 이는 특정 주제에 대한 데이터 부족이나 가드레일 설정의 차이에서 비롯될 수 있습니다.</p> <p contents-hash="9bb975e26863f5f190fe4446d6e2bde0d2c50843649e7d30057eb965d28ee46f" dmcf-pid="5PJrIEg2a2" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="cc9da43b8362c5199f154145be2ac6f75eb265a800c5dbd80379bbb0ea5b26d5" dmcf-pid="1QimCDaVk9" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기