로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
김민주, ‘샤이닝’ 주연 모은아 역 출연
N
[스포츠뉴스]
'김연아는 명품 모델인데' 日 아사다 마오 깜짝 근황…기모노 차림 공개→"소녀에서 숙녀로" 日 열광
N
[실시간뉴스]
통합 ‘조선몰’ 오픈... 적립금 최대 5만원 드립니다
N
[실시간뉴스]
무역 장벽 높이는 EU…'메이드 인 유럽' 규정 공개(종합)
N
[스포츠뉴스]
[오피셜] 최민정, 쇼트트랙 세계선수권 불참 확정!…노도희도 빠진다→최지현+노도희 대타 출격
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[연예뉴스]국내 AI에 수능 수학·논술 풀게 했더니…대부분 낙제
온카뱅크관리자
조회:
28
2025-12-15 10:38:53
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="2wRuu0DgvZ"> <figure class="figure_frm origin_fig" contents-hash="934fce6e8d598bff9990b1d0dd468f91e5c62bbe301601380e3b35f1fcd1fc4b" dmcf-pid="Vre77pwaWX" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI 일러스트 이미지. 로이터=연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103854983hmqi.jpg" data-org-width="559" dmcf-mid="bVYccNqFlt" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103854983hmqi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> AI 일러스트 이미지. 로이터=연합뉴스 </figcaption> </figure> <p contents-hash="ff15895bfbc675e75b0c00ff5dacabd6c2ebb85bde60575fb4b047528fd066ee" dmcf-pid="fmdzzUrNhH" dmcf-ptype="general"><br> 국가대표 인공지능(AI)에 도전 중인 국내 주요 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 모델에 크게 뒤처진다는 분석 결과가 나왔다. </p> <p contents-hash="85e511b6fe23b6a571dad618759adafcf414b22140cc2e31d2a0ccf1912ceb4d" dmcf-pid="4InbbzOcSG" dmcf-ptype="general">김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 대표 LLM과 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 15일 공개했다. </p> <p contents-hash="88e469b714045a60cac0b88fdb1feb5c74d4cfcb54b54205fc70184165d6b180" dmcf-pid="8CLKKqIkvY" dmcf-ptype="general">연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 최고 난도의 문항 5개씩 총 20문제를 선정했다. 논술 문제는 국내 10개 대학 기출 문제, 인도 대학입시 수학 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제로 구성해 총 50문항을 10개 모델에 제시했다. </p> <p contents-hash="a31ab310a6cbbde91c09e85b85602f6cbff3b7e11949d6d73db2d4b433ee2611" dmcf-pid="6ho99BCElW" dmcf-ptype="general">국내 모델로는 업스테이지의 솔라 프로-2, LG AI연구원의 엑사원 4.0.1, 네이버 HCX-007, SK텔레콤의 A.X 4.0(72B), 엔씨소프트의 경량 모델 라마 바르코 8B 인스트럭트가 활용됐다. 해외 모델은 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 대상이었다. <br> </p> <figure class="s_img figure_frm origin_fig" contents-hash="4cf81702a8d1507af69d052155dcb1f6925162248194c2a19826f264d42b895d" dmcf-pid="Plg22bhDSy" dmcf-ptype="figure"> <p class="link_figure"><img alt="수능 20문제+논술 30문제 풀이 점수. 서강대 김종락 교수팀 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103856282mgiz.jpg" data-org-width="199" dmcf-mid="K3kPP4WIC1" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103856282mgiz.jpg" width="199"></p> <figcaption class="txt_caption default_figure"> 수능 20문제+논술 30문제 풀이 점수. 서강대 김종락 교수팀 제공 </figcaption> </figure> <p contents-hash="7655a86531225910dc85bb0b7aa98e7fb16af0b520f7a7b48b3427d3badf19e0" dmcf-pid="QSaVVKlwvT" dmcf-ptype="general"><br> 평가 결과 해외 모델은 76점에서 92점 사이의 점수를 기록한 반면, 국내 모델은 솔라 프로-2만 58점을 받았고 나머지는 20점대에 머물렀다. 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다. </p> <p contents-hash="99d585369bbf2826575670235ab1672b621c46ebe9ac5e50b02a2ac55347fd91" dmcf-pid="xvNff9Srlv" dmcf-ptype="general">연구팀은 국내 모델의 경우 단순 추론만으로 문제 해결이 어려워 파이썬 도구 사용을 허용했음에도 성능 격차가 컸다고 설명했다. </p> <p contents-hash="97693d4758b46623fdd3df74f75e2b32799f0ebacc5e1eca01fbea7c96c11b0b" dmcf-pid="yP0CCs6bTS" dmcf-ptype="general">이어 연구팀은 대학 수준부터 교수급 연구 난이도까지 세분화한 자체 문제 세트 엔트로피매스 100문제 중 10문항을 선별해 추가 실험을 진행했다. 이 평가에서도 해외 모델은 82.8점에서 90점을 기록했지만, 국내 모델은 7.1점에서 53.3점에 그쳤다. </p> <figure class="figure_frm origin_fig" contents-hash="d3e7156c1b3f73f554fb88a750caee1e659afb82e909ac9046f094b02676de28" dmcf-pid="WQphhOPKSl" dmcf-ptype="figure"> <p class="link_figure"><img alt="엔트로피매스 10문제 풀이 점수. 서강대 김종락 교수팀 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103857513uxvz.jpg" data-org-width="394" dmcf-mid="9ZA88VTsy5" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103857513uxvz.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엔트로피매스 10문제 풀이 점수. 서강대 김종락 교수팀 제공 </figcaption> </figure> <p contents-hash="50367b5d4bcc30840437496e2ecc315a1919ecfd701cf3c0dc7aa94edf3ee662" dmcf-pid="YxUllIQ9lh" dmcf-ptype="general"> 세 차례까지 풀이를 시도해 정답을 맞히면 통과하는 방식의 실험에서는 그록이 만점을 기록했고, 다른 해외 모델들도 90점을 받았다. 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점을 기록했다. </p> <p contents-hash="85abc0e59eeffe1f702893af627a3b9da4c70683cd57d16f4ccd43fea60ef80e" dmcf-pid="GMuSSCx2lC" dmcf-ptype="general">김종락 교수는 “국내 소버린 AI 모델의 수능 수학 평가가 없다는 질문이 많아 직접 테스트를 진행했다”며 “해외 프런티어 모델과의 격차가 상당하다는 점이 확인됐다”고 밝혔다. </p> <p contents-hash="9aa21eaf0f0810bbbf8119a4cf6fe46ca89051e7b91cb2e4a8e41afb2f97bfd2" dmcf-pid="HExppFkLSI" dmcf-ptype="general">연구팀은 이번 실험에 사용된 모델이 공개 버전인 만큼, 각 팀의 국가대표 AI 신규 버전이 공개되면 자체 개발 문제를 활용해 다시 성능을 평가할 계획이다. 김 교수는 “엔트로피매스를 기반으로 수학 리더보드를 구축했으며, 이를 국제적 수준으로 확대할 것”이라며 “문제 생성 알고리즘과 파이프라인을 고도화해 과학, 제조, 문화 등 다양한 도메인 특화 데이터세트 개발에도 기여하겠다”고 말했다. </p> <p contents-hash="6f4af44ae4402f96691112c542da4721fe9e66cac74c5e6b7d698d3e24b5b81c" dmcf-pid="XDMUU3EohO" dmcf-ptype="general">이번 연구는 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴의 공동 지원으로 진행됐다. </p> <p contents-hash="c63606cd4e63b4fc261a7701f9516534e5e05af619d3cc0c0c303ee43fc8584f" dmcf-pid="ZwRuu0DgCs" dmcf-ptype="general">정재홍 기자 hongj@joongang.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기