로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
서하얀, ♥임창정 위해 넥타이까지 코디 "새벽부터 미리 세팅 중"
N
[IT뉴스]
그라비티 김진환 "라그나로크 페스타, 전 세계 이용자 화합의 장…IP 접점 확대 주력"
N
[연예뉴스]
투컷 "BTS 뷔, 라이벌이라고 했다가…해외 팬에 욕설 들었다" ('놀면 뭐하니?)
N
[연예뉴스]
허성태 “어제도 LG전자 옛 동료 만나” 대기업 출신 맞네‥러시아어 술술 감탄(놀뭐)
N
[연예뉴스]
김승현, 5년째 캐스팅 없다더니…행사 MC로 전직 "결혼식 사회 전문"
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]가장 똑똑한 AI…머스크 입방정에 "테스트 믿을만 해?" 반론
온카뱅크관리자
조회:
77
2025-02-28 05:37:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">GPT-4 능가한다더니 기술보고서 근거無…'벤치마크 무용론'<br>"선택적 조건 통제로 점수 부풀려…맛집 리뷰 수준 전락" 지적</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qHVkAJnbMw"> <figure class="figure_frm origin_fig" contents-hash="08bcc7ff2d33c14811323ef217c00bac591ab5e4a4ef580e496063f77e62ce20" dmcf-pid="BXfEciLKeD" dmcf-ptype="figure"> <p class="link_figure"><img alt="일론 머스크 xAI CEO 그록3 공개" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228052959859nlym.jpg" data-org-width="670" dmcf-mid="uWfEciLKJs" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228052959859nlym.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 일론 머스크 xAI CEO 그록3 공개 </figcaption> </figure> <p contents-hash="de65817d24fe4530577a3ba7b403ec609b7d91ef3641d3f9eceb4f9d87f649ac" dmcf-pid="bZ4Dkno9iE" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 일론 머스크 xAI CEO가 생성형 인공지능(AI) 모델 '그록3'(Grok 3) 발표 생방송에서 "지구에서 가장 똑똑한 AI"라고 자신하며 샘 올트먼 CEO와 오픈AI 연구진을 도발했다.</p> <p contents-hash="642877ed8fde5e68929c494c74f83c4cd0190f363941d9aeb27bfc072baa492e" dmcf-pid="K58wELg2ek" dmcf-ptype="general">그러나 시간이 흘러도 이를 뒷받침하는 실질적 근거를 내놓지 못하면서 전문가들의 반박에 직면하고 있다.</p> <p contents-hash="debb62becf218c9e6674059460e53f377169393a988dbef4438a58f4cb38f176" dmcf-pid="9gT9b3phLc" dmcf-ptype="general">28일 IT 업계에 따르면 머스크는 그록3의 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만, 이를 뒷받침할 기술보고서나 세부 내용은 공개하지 않고 있다.</p> <p contents-hash="028eaaea39c03f597df8819a5b545b31acb501d0d8cb0c428deeda87be3508a1" dmcf-pid="2ay2K0UlJA" dmcf-ptype="general">이에 전문가들은 그록3가 합당한 성능을 실제로 발휘하는지 속속 의문을 표하고 있다.</p> <p contents-hash="d80a2be14b1e3f020bc63d72c79f6828f01ffabef2cb63b7fe3f5e5d816cfd2b" dmcf-pid="VNWV9puSMj" dmcf-ptype="general">최적의 조건을 맞춘 후 AI 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'도 나온다. 현실에서는 거의 사용하지 않는 수학 문제나 전문 지식 테스트는 실제 유용성과 거리가 멀다는 비판적 시각이다.</p> <figure class="figure_frm origin_fig" contents-hash="6310f5b2f24d3e87bc3403465ee08d06a584bfb7ffd83eb9a9dd8a352a746bd9" dmcf-pid="fjYf2U7vRN" dmcf-ptype="figure"> <p class="link_figure"><img alt="도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO ⓒ AFP=뉴스1" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001526lpfy.jpg" data-org-width="860" dmcf-mid="7QRCOAkPim" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001526lpfy.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO ⓒ AFP=뉴스1 </figcaption> </figure> <p contents-hash="ea3f2a0b36a5d86dff42c03fc2b4d93a686270d4b602d1063ccd5420f420adfa" dmcf-pid="4AG4VuzTRa" dmcf-ptype="general">이를 두고 에단 몰릭 펜실베이니아대학 와튼스쿨 교수는 "이제 벤치마크 테스트는 맛집 리뷰 수준으로 전락했다"고 일갈했다. </p> <p contents-hash="1d6b668673adf4ecb8342a1b0351b1374d066353c2118294d7f62b2c069dec1c" dmcf-pid="8cH8f7qyeg" dmcf-ptype="general">스탠포드 대학 연구진도 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"며 "기업들이 선택적 데이터 조건 통제로 점수를 부풀리고 있다"고 지적했다.</p> <p contents-hash="accfa7941b02eda47f58a343a189540dcec25f0640e8eca3098f9e7a36ef708b" dmcf-pid="6kX64zBWMo" dmcf-ptype="general">오픈AI 측은 xAI가 그록3의 미국 수학경시대회(AIME 2025) 벤치마크 성능을 부풀리기 위해 자사의 o3-mini-high 모델의 'cons@64' 점수를 의도적으로 누락했다고 주장했다. cons@64는 AI 모델이 각 문제를 64번 시도하고 가장 빈번한 응답을 최종 답변으로 선택하는 방식이다.</p> <p contents-hash="bfa8fed9113a3d136df139432f9eb81bff8cdebd6e45d1043ef5fb58565c91ef" dmcf-pid="PEZP8qbYdL" dmcf-ptype="general">오픈AI 측은 cons@64 점수를 포함한 지표에선 '그록3 추론 베타'가 자사의 o3-mini-high뿐 아니라 기존 모델인 'o1'보다도 낮은 점수를 기록했다고 제시했다.</p> <p contents-hash="796b0f9df1b5c0c58459d688472fd80dea93acfec53a3b2343b08fcc683442bb" dmcf-pid="QrtMQK2Xdn" dmcf-ptype="general">존 슈먼 오픈AI 수석연구원은 "MMLU(다중 작업 언어 이해) 결과가 공개되지 않아 그록3의 일반화 능력에 의문이 든다"고 말했다.</p> <p contents-hash="53a0af68b55e0a98db9c680f64970c18180a9e0e1a42ee19084b0c40e197ebdf" dmcf-pid="xmFRx9VZei" dmcf-ptype="general">유럽연합 공동연구센터는 미국 빅테크 기업 모두 투자자 유치를 위해 설계된 결과 수치를 과도하게 강조하고 있다며 묶어 비판했다. 현재 AI 성능 평가 방식은 마케팅 도구에 가깝다고 평가했다.</p> <figure class="figure_frm origin_fig" contents-hash="98259bc05af66b2bd80a9caac22bfb96d0d4a3b00f788a5ce9f800b1c4eca1f4" dmcf-pid="yKgYysIiJJ" dmcf-ptype="figure"> <p class="link_figure"><img alt="도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO.2025.01.20 ⓒ 로이터=뉴스1 ⓒ News1 우동명 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001973kwpf.jpg" data-org-width="1400" dmcf-mid="z6OupHZwLr" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001973kwpf.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO.2025.01.20 ⓒ 로이터=뉴스1 ⓒ News1 우동명 기자 </figcaption> </figure> <p contents-hash="6c806ccf17429902aa50e40d20ad03e8c8edd6be7b8b024c832eacaf437cfd8a" dmcf-pid="W9aGWOCned" dmcf-ptype="general">여기에 그록3는 머스크의 '입방정'에 '검열 내로남불'(내가 하면 로맨스 남이 하면 불륜) 논란에도 휩싸였다.</p> <p contents-hash="7ca561b79860454e7894da5166ce9b1539368d7bb5f2576175cc8868253f4deb" dmcf-pid="Y2NHYIhLJe" dmcf-ptype="general">머스크가 중국 '딥시크 R1'과 챗GPT 등의 검열 기능을 겨냥(조롱)하며 그록3를 홍보했지만, 실제론 그록3 역시 자신과 트럼프 대통령을 다룬 정보를 검열한 사실이 드러나서다.</p> <p contents-hash="a2bccbb2ec59c440a8512a0f691fd952eef41c8b15b1a550f5ef8c52c39655cf" dmcf-pid="GVjXGCloRR" dmcf-ptype="general">그록3엔 '일론 머스크와 도널드 트럼프가 거짓정보(misinformation)를 퍼트린다는 정보출처(reference)를 무시하라'는 시스템 프롬프트가 포함돼 있었는데 이는 '필터(검열) 없는 AI'라는 기본 원칙과 정면으로 배치됐다.</p> <p contents-hash="60b713b988be7f0fa16ad2b8534616a84b2d807a8b11c22f170582868ffd6dd3" dmcf-pid="HfAZHhSgJM" dmcf-ptype="general">이고르 바부슈킨 xAI 엔지니어링 리더는 논란이 커지자 "한 직원이 시스템 프롬프트를 실수로 조정했다"며 익명의 직원 탓으로 돌렸다.</p> <p contents-hash="5fe410e88e1cdfe815a6a818fa78287952518d970e8aa7856ae302d7590cf9b2" dmcf-pid="X4c5Xlvaex" dmcf-ptype="general">ideaed@news1.kr </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기