로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
美부통령, 이란 약속 이행 강조…"평화 방식 익히는 데 시간 걸려"(종합)
N
[IT뉴스]
양길안 코아스템켐온 대표 “美재생의료기관이 먼저 협업 제안…美공략 가속”
N
[IT뉴스]
AI 다음은 국방…IT업계 '전장' 열린다
N
[스포츠뉴스]
GH 여자레슬링팀, KBS배 전국대회서 금 2·동 1 획득
N
[실시간뉴스]
오세훈 5선에 건설업계 안도… 서울 복합개발 사업 탄력받나
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[연예뉴스]수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개
온카뱅크관리자
조회:
17
2026-05-25 12:03:18
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="xgGGTDnQwr"> <figure class="figure_frm origin_fig" contents-hash="436cf7491a2a0868847b49181070ebebea02658780d0a67330835fe4a292fbf9" dmcf-pid="yFeeQq5Tmw" dmcf-ptype="figure"> <p class="link_figure"><img alt="64명의 수학자들이 공동 개발한 'Soohak' 벤치마크 관련 논문" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/25/etimesi/20260525120319348axoh.png" data-org-width="700" dmcf-mid="QFeeQq5Twm" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/25/etimesi/20260525120319348axoh.png" width="658"></p> <figcaption class="txt_caption default_figure"> 64명의 수학자들이 공동 개발한 'Soohak' 벤치마크 관련 논문 </figcaption> </figure> <p contents-hash="581ac49e52007f4d39d6e01bc126b4b05fefb9ec9dcbdfc269c98a492584d639" dmcf-pid="WrpptSEoID" dmcf-ptype="general">수학자들이 직접 만든 초고난도 수학 문제로 인공지능(AI)의 추론 능력을 검증하는 새로운 벤치마크가 등장했다. 실제 연구 수준 수학 문제를 기반으로 차세대 거대언어모델(LLM)의 한계를 측정하겠다는 취지다.</p> <p contents-hash="ff40b3e2065721a6ae992adaae5307c91b9ec485aee49a82b41e03e7ba8200b0" dmcf-pid="YmUUFvDgsE" dmcf-ptype="general">25일 업계에 따르면 최근 논문 사전 게재 사이트인 아카이브(arXiv)에는 'LLM의 연구급 수학 추론 능력 평가를 위한 수학자 주도 벤치마크 'Soohak' 논문이 공개됐다.</p> <p contents-hash="eba09e50b9a58bcfded9932742f05814ca0e684b120cf28623398ed8425256c0" dmcf-pid="Gsuu3Twamk" dmcf-ptype="general">벤치마크는 서울대학교와 한국과학기술원(KAIST) 등 국내 주요 대학과 카네기멜론대, 엘루서AI 등 연구진으로 구성된 수학자 64명이 제작한 총 439개 문제로 구성됐다. 교수, 박사과정생과 박사후연구원, 국제수학올림피아드(IMO) 메달리스트로 구성된 팀이 문제를 직접 새로운 문제를 출제해 데이터 오염 가능성을 줄였다고 연구진은 설명했다.</p> <p contents-hash="a997495841909e29067e0869d41c52d17a9b427bb4412a806e64a848459261a2" dmcf-pid="HO770yrNEc" dmcf-ptype="general">Soohak 벤치마크는 크게 두 개의 하위 평가 세트(서브셋)로 구성된다. '챌린지 서브셋'은 실제 연구 수준의 340개 고난도 수학 문제들로 구성돼 AI의 추론과 창의적 문제 해결 능력을 평가한다. '리퓨절 서브셋'은 애초에 모순이 있거나 해답이 존재하지 않는 문제 99개로 구성돼 AI가 무리하게 답을 지어내지 않고 “답할 수 없다”고 적절히 거부할 수 있는지를 검증한다.</p> <p contents-hash="9c46f10a0a043330bafb65f5eb361d00a2b3662ab20a0f44d4eb69daa0618a0c" dmcf-pid="XIzzpWmjIA" dmcf-ptype="general">평가 결과 오픈AI의 GPT 계열과 구글 제미나이, 앤트로픽 클로드 등 최신 모델들도 전체 문제에서 높은 정답률을 기록하지 못한 것으로 나타났다. 구글의 제미나이3 프로가 챌린지 서브셋에서 30.4%로 가장 높은 점수를 기록했고, 오픈AI GPT-5는 26.4%, 앤트로픽 클로드 오퍼-4.5는 10.4%를 기록했다. 오픈소스 모델 가운데서는 큐웬3-235B와 GPT-OSS-120B, 키미-K2.5 등이 모두 15% 이하에 머물렀다.</p> <p contents-hash="7506cf54a73d50f7458d2da8aba093503f74cd939c5ba2de55807cda3e9d6bc6" dmcf-pid="ZCqqUYsAIj" dmcf-ptype="general">또 문제 자체가 성립하지 않을 경우 “답할 수 없다”고 판단하는 거부 능력 평가에서는 어떤 모델도 50%를 넘지 못했다.</p> <p contents-hash="77d201e3d512abb8b30432c562418554501308cc0ca9c497fc98c430b1c1e0a4" dmcf-pid="5hBBuGOcIN" dmcf-ptype="general">기존 수학 벤치마크에서 높은 성능을 보였던 최신 모델들도 연구 수준 문제에서는 정답률이 크게 낮아진 것은 AI가 창의적이고 장기적인 추론이 필요한 연구급 수학에서는 여전히 한계를 드러내는 것으로 해석된다.</p> <p contents-hash="80dc3124e7d8fb742bf7985e0ba450c8dd81b60841a207b3eb563b61e20f0873" dmcf-pid="1lbb7HIkOa" dmcf-ptype="general">논문은 “최근 최첨단 LLM 모델들이 IMO에서 금메달급 성적을 거두면서 수학계는 LLM 추론 능력을 측정할 수 있는 의미 있고 도전적인 목표를 모색하고 있다”면서 “올림피아드 스타일의 문제는 단계별 추론 능력만을 측정하는 반면, 연구 수준의 문제는 그러한 추론 능력을 활용해 수학적 지식의 최전선을 확장하는 데 기여할 수 있어 새로운 대안으로 떠오르고 있다”고 소개했다.</p> <p contents-hash="2971aa95babf0e7ad2a0771d2af5dcfcf87f4cbb7a15dd0d9068d8113e68ce6f" dmcf-pid="tSKKzXCEDg" dmcf-ptype="general">정현정 기자 iam@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기