로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[스포츠뉴스]
'신빙속여제' 김민선 돌아왔다! 월드컵 4차 女 500m 동메달 획득!…이나현은 4위
N
[연예뉴스]
[TVis] 서장훈, 日 점술가 재혼수 언급에 “기회 된다면” 화색 (‘미우새’)
N
[스포츠뉴스]
결전의 시간이 다가온다···‘숙적’이 빠진 월드투어 파이널스, 단일 시즌 최다 우승 타이기록 도전하는 ‘셔틀콕 여제’
N
[IT뉴스]
블아 "영화와 용하형 모두 접신하고 왔습니다"
N
[연예뉴스]
지드래곤, 라이브 논란 씻어낸 속사포 랩…82만 동원 월드투어 '피날레' [김수영의 스테이지&]
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까
온카뱅크관리자
조회:
8
2025-12-14 14:37:32
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8vVj3yiPrQ"> <figure class="figure_frm origin_fig" contents-hash="4eeb738e70e5d6eb972e19daa956861dbf7bfba486afe48a47a91181c759ca4c" dmcf-pid="6TfA0WnQmP" dmcf-ptype="figure"> <p class="link_figure"><img alt="게티이미지뱅크" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" data-org-width="505" dmcf-mid="4QIpaxZvEx" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 게티이미지뱅크 </figcaption> </figure> <p contents-hash="ed97931bf34c0c6d2a997c75ab9bb4aa23f882601ccb79710a8b1c92ac1b6b2c" dmcf-pid="Py4cpYLxI6" dmcf-ptype="general"> 제미나이3, 지피티(GPT)5.2 등 인공지능 성능 경쟁이 갈수록 치열해지는 가운데, 인공지능의 ‘똑똑한 정도’를 어떻게 평가하는지에 대한 관심도 높아지고 있다. 추론·수리·개발 등 인간의 기능에 필적하는 종합적인 역량을 평가해야 하기 때문에, 이를 객관적으로 수치화할 수 있는 다양한 ‘벤치마크’ 성능 평가가 마련돼 있는 상황이다.</p> <p contents-hash="b9b2445297a6f7bf03f47ec242e1350779eee4d6483850be6bf991a918f1bf9c" dmcf-pid="QY6EuHgRI8" dmcf-ptype="general">사용자의 직접 평가를 반영하는 벤치마크는 ‘엘엠아레나’(LMArena)가 있다. 엘엠아레나는 말 그대로 언어모델(Language Model)들의 경기장(Arena)이다. 사용자는 기존 인공지능 서비스를 사용할 때처럼 질문을 던진 뒤 익명의 인공지능으로부터 두개의 답변을 받아본다. 둘 중 훌륭한 답변 하나를 고르거나, 무승부를 선언하거나, 둘 다 별로라고 판단할 수도 있다. 이렇게 사용자가 내린 평가를 모아 순위를 매기는 방식이다. 엘엠아레나의 순위표(리더보드)에 가면 ‘텍스트’, ‘개발’, ‘이미지 수정’ 등 영역별로 인공지능의 순위를 볼 수 있다. 12월14일 기준으로 웹 개발을 제외한 대부분의 영역에서 구글의 제미나이3 프로가 1등을 차지하고 있다.</p> <figure class="figure_frm origin_fig" contents-hash="b7a331f333483ad1b9b26a00da0b79c9756b4047499970937bf7201b8a3e2c80" dmcf-pid="xGPD7Xaem4" dmcf-ptype="figure"> <p class="link_figure"><img alt="엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" data-org-width="970" dmcf-mid="YBl2wLUZrR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리 </figcaption> </figure> <p contents-hash="9aa3caab1ae601ada343b6fd9e2e4355697d807742141e05606eeb83dfd072e5" dmcf-pid="yevqkJ3Gmf" dmcf-ptype="general"> 최근 많이 사용되는 벤치마크는 ‘인류의 마지막 시험’(HLE)이다. 인류의 마지막 시험은 기존 벤치마크에서 인공지능들이 90% 이상의 정확도를 달성함에 따라 ‘아주 어려운 문제를 풀게 해보자’는 취지로 만들어졌다. 수학, 물리학 등 100개 이상의 과목에서 교수나 연구자들이 제공한 2500개의 문제를 풀도록 한다. 제미나이3 프로는 이 시험에서 37.52%의 정답률을 보였다. 지피티5.2 프로가 기록한 정답률은 34.5%다.</p> <figure class="figure_frm origin_fig" contents-hash="dfa5017ac17cca32970dfcbc62a41c86b95f0e98b4290d9328e9300696059397" dmcf-pid="WdTBEi0HsV" dmcf-ptype="figure"> <p class="link_figure"><img alt="인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" data-org-width="970" dmcf-mid="G5Vsq5jJmM" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리 </figcaption> </figure> <p contents-hash="6266c167f8ca16dcd1382a341b5d5db3e0ec568f9a961a903481778bc6b34745" dmcf-pid="YJybDnpXm2" dmcf-ptype="general"> 자율적으로 작업하는 에이전트 인공지능의 중요성이 부각됨에 따라 주목받는 벤치마크도 있다. 인공지능이 직접 자판기를 운영하고 그 성과를 보는 ‘벤딩 벤치’(Vending-Bench)다. 인공지능이 향후 실제 경제활동에 참여하는 걸 상정한 측정 방식이다. 인공지능이 재고를 관리하고 가격을 책정하는 등의 경제적 활동을 했을 때 얼마나 잘 운영하는지 확인한다. 제미나이3 프로는 초기 자금 500달러로 시작해 1년이 지났을 때 잔고 5478달러를 남겨 1위를 차지했는데, ‘가격이 좋은 공급업체를 찾아내는 능력이 매우 뛰어나다’는 평가를 받았다.</p> <figure class="figure_frm origin_fig" contents-hash="12cf6eebf192584d09f71e11320fca8cd02a49dd557c252a459417703b449a53" dmcf-pid="GiWKwLUZD9" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" data-org-width="944" dmcf-mid="HjUN1Se4rx" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리 </figcaption> </figure> <figure class="figure_frm origin_fig" contents-hash="79fbfe16261f9522ebbb4bafe2120e14a19b4551e2f7c423bd85d0eff216751d" dmcf-pid="HnY9rou5rK" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" data-org-width="970" dmcf-mid="XCujtvd8EQ" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리 </figcaption> </figure> <p contents-hash="a937dc61cf3062a4e697631f578811e62b79276d16fa18a55909ad9664b335d6" dmcf-pid="XLG2mg71sb" dmcf-ptype="general"> 이 외에 코딩 오류를 고치는 능력으로 개발 성능을 평가하는 ‘에스더블유이(SWE)벤치’, 수학 올림피아드급 난이도의 문제를 푸는 ‘매스아레나 에이펙스’(MathArena Apex)등도 활용된다.</p> <p contents-hash="df1c64179ad285ee34bfc98a699c7860814e638a4c69b6c8e4f1fb0a423c1eea" dmcf-pid="ZoHVsaztEB" dmcf-ptype="general">인공지능 벤치마크는 널리 활용되고 있지만 지나치게 능력 평가에만 매몰됐다는 비판의 목소리도 있다. 유럽연합 집행위원회 산하 공동연구센터(JRC) 연구진은 지난 5월 낸 논문에서 “많은 벤치마크가 윤리나 안전 같은 목표보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞추고 있다”고 비판했다.</p> <p contents-hash="5743cffe158df5ef440a2b92993ab51fb6c6e4ae1d7311532a4ccfbfb1c21a61" dmcf-pid="5gXfONqFmq" dmcf-ptype="general">채반석 기자 chaibs@hani.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기