로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
'아바타: 불과 재', 개봉 첫 주말 1위…174만 명 돌파
N
[연예뉴스]
에드워드 리 "'흑백요리사' 방영 1년, 내 인생 바뀌었다"
N
[연예뉴스]
“벌써 그런 걱정은…” 현빈, ‘만화 같다는’ 3세 아들 앞에서 멈춘 말
N
[연예뉴스]
알파드라이브원, 데뷔 앨범 스포…타이틀곡 '프릭 알람'
N
[연예뉴스]
"나의 스타, 편히 쉬세요"…이영애·채시라, 故윤석화 떠나보냈다
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]한국 LLM 실력 떨어진다고?…LG·네이버 잇따른 반박
온카뱅크관리자
조회:
17
2025-12-21 13:47:28
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">“수능 점수로 성능 단정 무리”…벤치마크 설계 놓고 업계 반발<br>LG “엑사원 내부 평가는 88점대”…네이버 “평가 의도 불명확”<br>류제명 차관 “내년 6월 세계 10위 독자 파운데이션 모델 확보 가능”</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8krtRqIkOC"> <p contents-hash="7bd469de3951cf673ffd9af1ad9399932833f00f61763b786d7c0038ed3831ea" dmcf-pid="6EmFeBCEmI" dmcf-ptype="general"> [이데일리 김현아 기자]수능 문제를 풀게 했더니 국내 인공지능(AI) 모델 성능이 해외에 크게 뒤처졌다는 연구 결과를 두고, 국내 AI 업계의 반박이 이어지고 있다. 단순 점수 비교만으로 대형언어모델(LLM)의 기술력을 단정하는 것은 무리라는 지적이다.</p> <p contents-hash="3a28e2a67b120349e190994b1570cba02f391f00fee76fdcaf8ecb969db42e2f" dmcf-pid="PDs3dbhDDO" dmcf-ptype="general">김종락 서강대 수학과 교수 연구팀은 지난 15일 국내 5개, 해외 5개 대형언어모델에 수능 수학·논술 문제 등 총 50문제를 풀게 한 평가 결과를 공개했다. 구글의 제미나이 3 프로(Gemini 3 Pro)는 92점, 앤스로픽의 클로드 오퍼스 4.5(Claude Opus 4.5)는 84점을 기록한 반면, 국내 모델들은 20점대에 머물렀다는 내용이다. 이 결과는 국가대표 AI, 이른바 소버린 AI(국가 주권 차원의 독자 AI) 개발 전략 전반에 대한 회의론으로까지 확산됐다.</p> <figure class="figure_frm origin_fig" contents-hash="7c044e249fefd4b1898781216e1760841e0d6d8c2217931f6d15936a22565acb" dmcf-pid="QwO0JKlwrs" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/21/Edaily/20251221134606782jbjm.jpg" data-org-width="300" dmcf-mid="VhS2kM5TrS" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/21/Edaily/20251221134606782jbjm.jpg" width="658"></p> </figure> <div contents-hash="aeaf652320ca5e8506c9e05a0fc8b2465955330faa675863c5d5d3fcb50f8495" dmcf-pid="xigT21Airm" dmcf-ptype="general"> 그러나 평가 방식 자체를 문제 삼는 반론이 곧바로 제기됐다. LG AI연구원은 “엑사원(EXAONE) 내부 평가에서는 평균 88점대를 기록했다”며 연구 결과에 반박했다. LG 측은 동일한 수능 수학 문제를 자체 기준으로 여러 차례 반복 평가한 결과라며, 실험 환경과 설정 차이를 고려하지 않은 비교라고 설명했다. </div> <p contents-hash="8ca20dcab792d96e827da756c29da83e04f61a63cb6cf943e7064534f85ad202" dmcf-pid="yZFQOLUZwr" dmcf-ptype="general">네이버도 벤치마크 설계의 불명확성을 지적하고 나섰다. 이동수 네이버클라우드 전무는 “해당 평가가 어떤 성능을 보려는 실험인지 의도가 명확하지 않다”며 “일반적인 LLM 벤치마크라고 보기 어렵다”고 밝혔다.</p> <p contents-hash="96dc28af52e2aaf5af7360143e4735e7adb983f0291422123a8b11bd8bb6e533" dmcf-pid="W53xIou5rw" dmcf-ptype="general">특히 그는 이번 실험이 파이썬(Python·프로그래밍 언어) 기반 도구 호출을 전제로 한 에이전틱 AI(agentic AI·목표 달성을 위해 스스로 계획하고 도구를 활용하는 AI) 설정이라는 점을 문제 삼았다. 이동수 전무는 “정답이 나올 때까지 재시도하는 구조로 토큰(token·모델이 처리하는 텍스트 단위) 사용에 사실상 제한이 없는 환경에서, 정답률만으로 성능을 평가하는 것은 의문”이라고 지적했다.</p> <p contents-hash="f6e5da204f6eb5ae586d04040af0eb7ccb59d6d3c50e03328ecd3784c85c0699" dmcf-pid="Y10MCg71ED" dmcf-ptype="general">업계에서는 이번 실험이 추론 능력(reasoning) 평가인지, 에이전틱 AI 역량 평가인지, 단순 도구 호출(tool calling) 성능 평가인지 목적이 불분명하다는 비판도 나온다. 이미 글로벌 AI 업계에는 토큰 효율성과 재시도 전략까지 포함한 다양한 벤치마크가 존재하지만, 이번 평가는 설정과 해석이 충분히 공개되지 않은 채 점수만 부각됐다는 것이다.</p> <figure class="figure_frm origin_fig" contents-hash="f2e79f9013dd87efd31ec01b799f163716802b25b087f7cfae7383cfc8c44b86" dmcf-pid="GtpRhaztOE" dmcf-ptype="figure"> <p class="link_figure"><img alt="[이데일리 김정훈 기자]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/21/Edaily/20251221134608026rrto.jpg" data-org-width="670" dmcf-mid="frBA5OPKsl" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/21/Edaily/20251221134608026rrto.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> [이데일리 김정훈 기자] </figcaption> </figure> <div contents-hash="0e1ecbb28321b2a67b1db2b380fb58322998b1c96c3c8c648d595af13afbb34f" dmcf-pid="H07JvAb0Ek" dmcf-ptype="general"> 정부는 보다 중장기적인 관점에서 국내 AI 경쟁력을 바라보고 있다. 류제명 과학기술정보통신부 제2차관은 지난 18일 고려대 기술법정책센터가 주최한 세미나에서 “독자 파운데이션 모델(foundation model·다양한 AI 서비스의 기반이 되는 대규모 기본 모델) 구축을 위한 한국의 시도는 해외에서도 글로벌 수준이라는 평가를 받고 있다”고 밝혔다. </div> <p contents-hash="7df518cf21f8c0fa5c09cb1d887ed80b4e11b432620904f86bbfeb23e788069a" dmcf-pid="XpziTcKprc" dmcf-ptype="general">류 차관은 자동차 산업에서 엔진의 중요성을 비유로 들며 “AI 시대의 핵심 엔진에 해당하는 파운데이션 모델을 스스로 확보하려는 전략은 필수”라고 강조했다. 이어 “GPU(Graphics Processing Unit·AI 연산에 특화된 반도체), 데이터, 인재를 결집해 제한된 자원으로 경쟁하는 전략을 택하고 있다”며 “현재 추진 중인 로드맵대로라면 내년 6월에는 세계 10위 수준의 독자 파운데이션 모델을 확보할 수 있을 것”이라고 말했다.</p> <figure class="figure_frm origin_fig" contents-hash="92ce3af98c64fc82a6169518b6fcbbf79d39e1c9826784cf76fc21db143fa0f1" dmcf-pid="ZUqnyk9UsA" dmcf-ptype="figure"> <p class="link_figure"><img alt="지난 18일 고려대 기술법정책센터가 주최한 세미나에 참석한 류제명 과기정통부 제2차관.(윗쪽 왼쪽에서 세번째)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/21/Edaily/20251221134609256vqwl.jpg" data-org-width="670" dmcf-mid="4r0MCg71mh" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/21/Edaily/20251221134609256vqwl.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 지난 18일 고려대 기술법정책센터가 주최한 세미나에 참석한 류제명 과기정통부 제2차관.(윗쪽 왼쪽에서 세번째) </figcaption> </figure> <div contents-hash="c0dd9d50c799890b7526788c0757d2ecc7761c222a04690ae98614065295e0d7" dmcf-pid="5uBLWE2uOj" dmcf-ptype="general"> 전문가들은 이번 논란이 국내 AI의 실력 문제를 넘어, AI 평가 기준과 보도 방식 전반을 되짚는 계기가 되고 있다고 평가한다. 업계 관계자는 “벤치마크의 목적과 조건을 충분히 설명하지 않은 채 수능 점수만 강조하면 기술 논의를 왜곡할 수 있다”며 “산업과 정책 판단에 영향을 미치는 만큼 보다 정교하고 투명한 평가가 필요하다”고 말했다. </div> <p contents-hash="70cda5adf8f997f4fe9dd901ff71bfc405218dbfb1de068050a461259770ac01" dmcf-pid="17boYDV7rN" dmcf-ptype="general">김현아 (chaos@edaily.co.kr) </p> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기