【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]AI 콧대 꺾은 '인류 마지막 시험'…韓 연구자 8명 출제·평가자 참여

온카뱅크관리자

2026-01-29 18:07:32

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">Zoom In - 글로벌 AI 평가 프로젝트<br>AI 모델 초고난도 성능 시험<br>수학·물리학 등 2500개 문항<br>50개국 1000명 연구진 동참<br>구글 제미나이 38.3점 1위</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="qj6vMgx2T3">
          <figure class="figure_frm origin_fig" contents-hash="2483aef793c6252e2b1b07dd063bc5560691e7c70a9dd4bc3963f909a0bae7a8" dmcf-pid="BAPTRaMVvF" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/ked/20260129180126088lacw.jpg" data-org-width="585" dmcf-mid="78RZoDLxSp" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/ked/20260129180126088lacw.jpg" width="658"></p>
          </figure>
          <p contents-hash="c998304e9ee864165ed7c7b9d7084a9cfee4d2683b9c3039ccf757986f7d0ae8" dmcf-pid="bcQyeNRfyt" dmcf-ptype="general">인공지능(AI) 모델의 성능을 비교하기 위해 만든 초고난도 시험 ‘인류의 마지막 시험(Humanity‘s Last Exam·HLE)’ 출제자 명단에 박하언 에임인텔리전스 최고기술책임자(CTO·사진) 등 한국인 연구자 8명이 이름을 올렸다. HLE는 50개국 500여 개 기관의 연구자 약 1000명이 참여한 글로벌 AI 평가 프로젝트다.</p>
          <p contents-hash="951d6dd2fef31f10938caf40af7ef2d640ffed992d6d4020447352c2884d0ccc" dmcf-pid="KgfhPn6bh1" dmcf-ptype="general">국제학술지 네이처는 28일(현지시간) 논문을 통해 HLE 질문 분야와 문항 형식, 정답 해설, 출제자 이름과 소속 등 주요 데이터셋을 공개했다. 논문에 따르면 박 CTO와 김대현 연세대 교수를 비롯해 KAIST, 한국기술교육대, 건국대, 서울대 등의 한국인 연구자들이 HLE 출제에 참여했다. 미국 카네기멜런대, 컬럼비아대 등 해외 대학에 소속된 한인 연구자들도 명단에 이름을 올렸다.</p>
          <figure class="s_img figure_frm origin_fig" contents-hash="0ac7a59aa6021f47d6552d7b46c8ba306ea9b259934b6f2138b44d7f94842493" dmcf-pid="9a4lQLPKy5" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/ked/20260129180127323vegu.jpg" data-org-width="142" dmcf-mid="zCm9CGIkv0" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/ked/20260129180127323vegu.jpg" width="142"></p>
          </figure>
          <p contents-hash="770a50f87ac029d2f15e2fb96ff61cd637237cb27c7a66887d159b20f203de04" dmcf-pid="2N8SxoQ9lZ" dmcf-ptype="general">HLE 프로젝트는 AI 기술이 빠르게 고도화되면서 각종 벤치마크에서 주요 AI 모델이 만점에 가까운 점수를 따는 등 평가가 사실상 무력화하자 인류조차 풀기 어려운 문제를 내 모델 간 성능을 제대로 가리자는 취지로 추진됐다. 출제 당시 최고 성능의 AI 모델도 풀지 못한 문제를 엄선해 2500개 문항으로 추려졌다. 후보 문항을 취합하고 분야별 전문가가 점수를 매겨 높은 점수를 얻은 문제만 최후의 문제로 남았다.</p>
          <p contents-hash="1af018b793fd52e4abbd0cf664c8f09da2863e5af7e518ecdcdb481c11d8bc50" dmcf-pid="Vj6vMgx2SX" dmcf-ptype="general">HLE는 수학, 물리학, 화학, 생물학, 공학, 컴퓨터과학, 인문학 등 100여 개 세부 학문 분야를 총망라한다. 묘비에서 발견된 로마 비문 일부를 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지 등 분야별 전문성을 요구하는 문제가 다수 출제됐다. 일부 문항은 글과 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 구성됐다. 출제에 참여한 박 CTO는 “이산수학 문제를 냈는데 복잡한 계산이 필요해 소수점이 많이 나오는 답을 가진 질문으로 모델이 풀이는 비슷하게 하지만 결국 숫자 차이가 나게 되는 문제를 만들었다”고 말했다.</p>
          <p contents-hash="98f2b4d1e402948239243e3c5cfaf1fbf8959bc9793069fe76ac025dd01cbd3c" dmcf-pid="fAPTRaMVSH" dmcf-ptype="general">AI안전센터가 공개한 데이터에 따르면 구글 제미나이 3 프로가 정확도 38.3점으로 HLE에서 가장 높은 성적을 거뒀다. 오픈AI의 GPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 딥시크 3.2가 21.8점을 기록했다. 정부의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델은 상대적으로 낮은 점수를 기록했다. HLE 중 텍스트만 추린 평가에서 LG AI연구원의 ‘엑사원’이 13.6점, 업스테이지의 ‘솔라 오픈’은 10.5점, SK텔레콤의 ‘에이닷엑스 케이원’은 7.6점을 받았다.</p>
          <p contents-hash="109c4a54f2b7726370c15e7569d3b1699d8384d0a2c384f06bda745686614377" dmcf-pid="4cQyeNRfWG" dmcf-ptype="general">글로벌 AI업계에서 한국이 차지하는 위상을 비교했을 때 한국인의 HLE 출제 참여가 적은 편이라는 평가도 나온다. 박 CTO는 “한국에 홍보가 잘 안 됐다”며 “상금도 걸려 있고, 중요한 평가에 실제로 기여하며 논문에도 이름이 들어가는 만큼 의미가 있는 일”이라고 말했다. 해외에선 알렉산드르 왕 스케일AI 최고경영자(CEO) 같은 스타 엔지니어들이 출제를 주도하고 있다. AI 최종 성능의 기준을 세우는 일이라 AI 평가 기준은 물론 AI 규제, 투자 등 주요 가이드라인을 만드는 데 영향을 미친다.</p>
          <p contents-hash="747943ab8c4d6900f30dacc0c9864f450a937a5f75afcd909c665b9ec85a4dce" dmcf-pid="8kxWdje4TY" dmcf-ptype="general">고은이 기자 koko@hankyung.com</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 한국경제. 무단전재 및 재배포 금지.</p>

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기