로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
정청래 “보완수사요구권, 보완수사권 폐지하자는 뜻”
N
[실시간뉴스]
[단독] ‘노태악 부부 해외출장’에 환송 직원만 6명…선거는 부실 의전엔 진심?
N
[IT뉴스]
韓 달 착륙 2030년 앞당긴다…"우리 발사체로 우리 위성 쏜다"(종합)
N
[IT뉴스]
정부 “피지컬 AI·에이전틱 AI대응 개인정보 보호 기준 마련”
N
[IT뉴스]
‘우주 영토’ 확장 시동…남해안 중심 한국판 ‘스타링크’로 우주 시장 3% 점유
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]AI 평가 한계 지적한 오픈AI 부사장 “AI 성적표, 점수만 보면 착시"
온카뱅크관리자
조회:
14
2026-07-03 15:07:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">노엄 브라운 오픈AI 부사장 기조연설<br>“AI도 오래 생각하면 성능 달라져”<br>“시험시간 뺀 점수표로는 진짜 실력 못 봐”<br>“안전성 평가에도 추론 예산 반영해야”</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="py5Ko0e4mM"> <p contents-hash="1d6e668d0d683013f6a948c66edb8f4293132ac9d6c2e39045ce84f2e2842d91" dmcf-pid="UW19gpd8Ix" dmcf-ptype="general"> [이데일리 신영빈 기자] “인공지능(AI) 성적표를 점수 하나로만 보면 착시가 생깁니다. AI도 얼마나 오래 생각했는지, 얼마나 많은 연산을 썼는지에 따라 성능이 달라집니다.”</p> <p contents-hash="dfa705fffef2061faab0136da3f9daddb6212f75ab19df07b8ba74255c5289ba" dmcf-pid="uLcvzr3GsQ" dmcf-ptype="general">노엄 브라운 오픈AI 리서치 부문 부사장은 3일 서울 강남구 웨스틴 서울 파르나스에서 열린 ‘글로벌 AI 프론티어 심포지엄 2026’ 기조연설에서 기존 인공지능(AI) 평가 방식의 한계를 지적했다. AI 모델 성능을 하나의 벤치마크 점수로 비교하는 방식에서 벗어나, 추론에 투입한 시간·비용·토큰 수를 함께 봐야 한다는 주장이다.</p> <figure class="figure_frm origin_fig" contents-hash="8d3deddce8261b18d825f9f212511319fc6cb2980a774e2af1e0f44abf0e2118" dmcf-pid="7okTqm0HEP" dmcf-ptype="figure"> <p class="link_figure"><img alt="노엄 브라운 오픈AI 리서치 부문 부사장이 3일 서울 강남구 웨스틴 서울 파르나스에서 열린 ‘글로벌 AI 프론티어 심포지엄 2026’에서 발표하고 있다. (사진=신영빈 기자)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202607/03/Edaily/20260703150106164lqon.jpg" data-org-width="960" dmcf-mid="3fXBnFMVIe" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202607/03/Edaily/20260703150106164lqon.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 노엄 브라운 오픈AI 리서치 부문 부사장이 3일 서울 강남구 웨스틴 서울 파르나스에서 열린 ‘글로벌 AI 프론티어 심포지엄 2026’에서 발표하고 있다. (사진=신영빈 기자) </figcaption> </figure> <div contents-hash="b7a8877103c2a9b9d55f453d48ce1759399cf0ad0e697867b61e8bcc24cf48bd" dmcf-pid="zgEyBspXO6" dmcf-ptype="general"> 브라운 부사장은 이날 ‘대규모 테스트 시점 연산의 시사점’을 주제로 발표했다. 테스트 시점 연산은 AI가 학습을 마친 뒤 실제 문제에 답을 내는 과정에서 사용하는 연산량을 뜻한다. 쉽게 말해 AI가 문제를 풀 때 얼마나 오래 생각하고, 얼마나 많은 계산 자원을 쓰는지를 의미한다. </div> <p contents-hash="e8f4d4524e5e7432b6bbd3150cef611c922e543b8a64becefd983850e10d3d04" dmcf-pid="qaDWbOUZs8" dmcf-ptype="general">그는 “오늘날 모델 평가 방식은 잘못돼 있다”며 “더 큰 규모의 테스트 시점 연산이 쓰이는 시대에는 AI 평가를 다시 생각해야 한다”고 말했다. 현재처럼 모델별 점수를 막대그래프로 비교하는 방식은 AI의 실제 능력을 충분히 보여주지 못한다는 설명이다.</p> <p contents-hash="8982faa54887eff679a5574f5fc2e860c72a1d42fdc5c93526edaa782475beb3" dmcf-pid="BNwYKIu5E4" dmcf-ptype="general">브라운 부사장은 오픈AI의 최신 모델을 예로 들었다. 그는 GPT-5.5가 벤치마크 숫자만 보면 큰 도약처럼 보이지 않지만, 사용자가 직접 모델을 써본 뒤에는 체감 성능이 훨씬 높다는 평가가 나왔다고 했다. 최신 모델이 더 긴 추론 과정과 더 많은 출력 토큰을 활용할수록 성능을 크게 끌어올릴 수 있다는 설명이다.</p> <p contents-hash="2d66ec9b7a9310f7473d4a428230fc02269f51d7550768204c9674d2262100a5" dmcf-pid="bjrG9C71rf" dmcf-ptype="general">그는 “GPT-5.5를 더 오래 생각하게 하면 되지 않느냐는 질문을 받지만, 문제는 어디까지 오래 돌려야 하느냐다”며 “최신 모델은 성능이 정체되는 지점이 멀어 기존 평가 방식으로는 실제 능력을 포착하기 어렵다”고 말했다. 과거 모델은 일정 시간 이상 추론해도 성능이 금방 정체됐지만, 최근 모델은 더 많은 시간과 연산을 투입할수록 성능이 계속 올라가는 경향을 보인다는 것이다.</p> <p contents-hash="75572132fe35c173e2c14e06cd6e8a8da54cfe848247b40ccd25628ec8f4fd66" dmcf-pid="KAmH2hztIV" dmcf-ptype="general">브라운 부사장은 이를 시험에 비유했다. 같은 학생이라도 10분짜리 시험과 하루 동안 풀 수 있는 시험의 결과는 다를 수 있다. AI도 마찬가지로, 짧은 시간 안에 답한 결과와 며칠 동안 여러 접근법을 시도한 결과는 다를 수 있다. 시험시간을 빼고 점수만 비교하면 진짜 실력을 제대로 알기 어렵다는 의미다.</p> <p contents-hash="a202cb9eaf760dd9e8d11754a7dfed1a3e5a36a8e04b8a7724dbffdf08a0b83c" dmcf-pid="9csXVlqFI2" dmcf-ptype="general">그는 사이버보안, 수학, 머신러닝 연구처럼 복잡한 문제에서는 모델이 더 오래 생각할수록 성능이 크게 개선될 수 있다고 봤다. 실제로 여러 실험에서 최신 모델은 수많은 토큰을 생성하며 문제를 풀수록 성공률이 계속 높아졌다고 소개했다. 일부 모델은 수백만·수천만 토큰을 사용한 뒤에도 성능 향상이 멈추지 않았다.</p> <figure class="figure_frm origin_fig" contents-hash="eb42a8b3d8184d79fa33e2bbb6bb8c2547a4f4690cc7a749423ab0daf6dee782" dmcf-pid="2kOZfSB3w9" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI 모델별로 토큰 사용량에 따른 특정 과제 완성도를 나타내는 그래프. AI가 더 오래 생각할 때 생기는 변화를 보여준다. 최근 모델은 더 많은 시간과 연산을 투입할수록 성능이 계속 올라가는 경향을 보인다. (사진=신영빈 기자)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202607/03/Edaily/20260703150107406fhsk.jpg" data-org-width="960" dmcf-mid="0tv0xGfzsR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202607/03/Edaily/20260703150107406fhsk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> AI 모델별로 토큰 사용량에 따른 특정 과제 완성도를 나타내는 그래프. AI가 더 오래 생각할 때 생기는 변화를 보여준다. 최근 모델은 더 많은 시간과 연산을 투입할수록 성능이 계속 올라가는 경향을 보인다. (사진=신영빈 기자) </figcaption> </figure> <div contents-hash="8f88abc8cbef8984fdee420d84e58d723ae68d6837c15afa76d3c60f41f7f38a" dmcf-pid="VgEyBspXrK" dmcf-ptype="general"> 멀티에이전트 방식도 중요한 변수로 제시했다. 하나의 AI가 길게 생각하는 대신 여러 AI 에이전트가 병렬로 문제를 풀고, 그중 가장 좋은 답을 고르는 방식이다. 브라운 부사장은 이 방식이 비용 효율은 낮을 수 있지만 지연 시간을 줄이고 성능을 높일 수 있다고 봤다. </div> <p contents-hash="ffe6fcc1ab757cfa0773d5a737529097b5941b95c8c6625b01f3ecf31ecac327" dmcf-pid="faDWbOUZmb" dmcf-ptype="general">그는 AI 성능 평가도 이에 맞춰 바뀌어야 한다고 주장했다. 모델 점수를 하나의 숫자로 제시하는 대신, X축에 비용·토큰·시간을 두고 Y축에 성능을 표시하는 ‘성능 곡선’으로 평가해야 한다는 것이다. 같은 모델이라도 10달러어치 연산을 썼을 때와 100만달러어치 연산을 썼을 때의 능력이 다를 수 있기 때문이다.</p> <p contents-hash="02dc0f793620e7596f9ef9e660d5f32fd561a33e8c84adbb16527cff2ce65ca6" dmcf-pid="4NwYKIu5rB" dmcf-ptype="general">안전성 평가도 마찬가지다. 브라운 부사장은 현재 많은 AI 안전성 평가는 비교적 낮은 추론 예산에서 이뤄진다고 지적했다. 이 경우 평가에서는 위험하지 않아 보인 모델도, 특정 조직이 훨씬 많은 비용과 시간을 들여 오래 돌리면 더 강력하고 위험한 능력을 보일 수 있다.</p> <p contents-hash="11734aaa8a65e6e188536c0f244867aedbae680600eb80f41daaa1bbd5944122" dmcf-pid="8jrG9C71mq" dmcf-ptype="general">그는 “낮은 연산 예산으로 안전성 평가를 했을 때는 모델이 위험한 일을 할 수 없어 보일 수 있다”며 “하지만 누군가 훨씬 많은 시간과 비용을 들여 모델을 오래 돌리면, 평가 과정에서는 드러나지 않았던 더 강한 능력이 나타날 수 있다”고 설명했다.</p> <p contents-hash="7740737e5ccf5e109591261ab1818908de8a9b538b3f3896a12830e2451ecf4d" dmcf-pid="6AmH2hztsz" dmcf-ptype="general">브라운 부사장은 향후 AI 에이전트가 몇 시간이나 며칠을 넘어 몇 달 동안 지속적으로 작동하는 시대가 올 수 있다고 전망했다. 그는 인간 문명이 개인의 지능만으로 발전한 것이 아니라 수많은 사람이 지식을 축적하고 공유하며 발전했듯, AI도 여러 에이전트가 협력하고 지식을 공유하면 지금보다 훨씬 큰 능력을 보일 수 있다고 분석했다.</p> <p contents-hash="2b2a308638a84e5680219d969f4a8b09a4f32e868e6299c4a09b86834b358089" dmcf-pid="PcsXVlqFw7" dmcf-ptype="general">그는 “AI 연구소들은 새 모델을 공개할 때 단일 점수가 아니라 토큰, 비용, 시간에 따른 성능을 함께 공개해야 한다”며 “책임 있는 확장 정책과 안전성 기준도 테스트 시점 연산 규모를 명시적으로 반영해야 한다”고 강조했다.</p> <p contents-hash="edca3d7ef1a6b06fe3989052c06386bb46abbac35c80960d1ee19711ce7dfe7e" dmcf-pid="QkOZfSB3mu" dmcf-ptype="general">신영빈 (burger@edaily.co.kr) </p> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기