로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
李 "북미정상회담 주선한 곳에서 만찬 뜻깊어"…타르만 "BTS 공연 기뻐"(종합2보)
N
[실시간뉴스]
'美와 협상 없다'는 이란 안보수장 "장기전 대비…트럼프는 망상가"
N
[IT뉴스]
[MWC26]"광화문이 바르셀로나에" 기술과 문화 하나로 녹여낸 KT
N
[IT뉴스]
김동연 경기지사, 반도체 올케어 TF 가동…인허가 단축 목표제 추진
N
[연예뉴스]
[MWC26]"광화문이 바르셀로나에" 기술과 문화 하나로 녹여낸 KT
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]AI 자동화 공포, 과장됐다…실제 업무 중 2.5%만 해결
온카뱅크관리자
조회:
105
2025-11-04 07:27:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="xmfsTQZvcJ"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="yKC9QTiPod" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="ff6ad738136ef9c6fa0c1e2a9bfcc9b3c081af8d709064cc4c5d1ba4a1ebda84" dmcf-pid="W9h2xynQke" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/04/ZDNetKorea/20251104072014814wkll.jpg" data-org-width="640" dmcf-mid="PNQlHd3GAn" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/04/ZDNetKorea/20251104072014814wkll.jpg" width="658"></p> </figure> <p contents-hash="353e7f54378a1bfc90436696b7f9a1d42902c9171eeb867ea47608a28ee592ed" dmcf-pid="Y2lVMWLxoR" dmcf-ptype="general">인공지능이 지식과 추론 벤치마크에서 빠르게 발전하고 있지만, 실제 경제적 가치를 창출하는 업무를 자동화하는 능력은 여전히 바닥 수준에 머물러 있다는 연구 결과가 나왔다. AI 안전 센터(Center for AI Safety)와 스케일AI(Scale AI)가 공동 개발한 원격 노동 지수(Remote Labor Index, RLI)는 AI 에이전트가 실제 온라인 업무를 완수할 수 있는지를 측정하는 최초의 표준화된 벤치마크다.</p> <p contents-hash="06b79f2925a643617c35d674c6201dad4cf2b2d6eb37a9428d621b204a0132ca" dmcf-pid="GVSfRYoMkM" dmcf-ptype="general"><strong>온라인 프리랜서 플랫폼에서 수집한 240개 실제 프로젝트</strong></p> <p contents-hash="1e2aaa9bed34b60fb0a2cc6ef550a14f1b24878c6b05498f1ce283f5f48928e7" dmcf-pid="Hfv4eGgRAx" dmcf-ptype="general">연구 논문에 따르면, RLI는 온라인 프리랜서 플랫폼에서 직접 수집한 240개의 프로젝트로 구성됐다. 각 프로젝트는 작업 설명서(Brief), 프로젝트 완수에 필요한 입력 파일(Input files), 그리고 인간 프리랜서가 제작한 골드 스탠다드 결과물(Human deliverable)로 이뤄져 있다. 이 구조는 AI 에이전트가 경제적으로 가치 있는 작업을 생산할 수 있는지 직접 평가할 수 있게 한다. 벤치마크는 게임 개발, 제품 디자인, 건축, 데이터 분석 등을 포함해 업워크(Upwork) 분류 체계의 23개 카테고리를 포괄한다. 프로젝트 완료에 소요된 평균 시간은 28.9시간, 중간값은 11.5시간이었다. 평균 비용은 632.6달러, 중간값은 200달러였다. 전체적으로 RLI의 프로젝트들은 6,000시간 이상의 실제 작업과 14만 달러 이상의 가치를 대표한다.</p> <p contents-hash="e3b7c0b066c5e1c657f4c8c725341a8735aa88545eb298c1ae9db76c5687e4bf" dmcf-pid="X4T8dHaekQ" dmcf-ptype="general"><strong>기존 벤치마크보다 2배 이상 복잡하고 다양한 업무 유형</strong></p> <p contents-hash="5a15d39dccb2f182f20be6e32715127f761775ac973283575a807e51a49d29c9" dmcf-pid="Z8y6JXNdoP" dmcf-ptype="general">RLI는 기존 벤치마크들보다 실제 프리랜서 업무의 복잡성과 다양성에 훨씬 가깝다. 완료 시간 측면에서 RLI 프로젝트는 기존 비교 가능한 벤치마크들보다 2배 이상 길다. 업무 유형 분포에서도 차이가 크다. 이전 에이전트 벤치마크들은 주로 소프트웨어 엔지니어링이나 웹 기반 연구 및 작성 업무에 초점을 맞췄지만, 실제 온라인 업무 시장은 훨씬 더 다양하다. RLI는 이러한 더 넓은 현실을 반영하도록 설계됐다. 디자인, 운영, 마케팅, 관리, 데이터 및 비즈니스 인텔리전스, 오디오-비디오 제작 등을 상당 부분 포괄하며, 작업 복잡도와 결과물 유형을 샘플링해 종단간(end-to-end) 프리랜서 온라인 업무를 반영한다. 입력 파일과 결과물이 포괄하는 파일 형식도 이전 벤치마크들보다 훨씬 다양하다.</p> <p contents-hash="a07d49cb57f09f3c1c6ea83597b9033732b5544b8d7eedf0c27424ff62af166a" dmcf-pid="56WPiZjJo6" dmcf-ptype="general"><strong>최고 성능 AI도 자동화율 2.5%... 대부분 프로젝트 완수 실패</strong></p> <p contents-hash="e422511c93e32806133bfc96e710964716f58277a23889744be4f8c592a460c0" dmcf-pid="1kbECfWIc8" dmcf-ptype="general">연구팀은 챗GPT 에이전트(ChatGPT agent), GPT-5, 클로드 소네트 4.5(Claude Sonnet 4.5), 그록 4(Grok 4), 제미나이 2.5 프로(Gemini 2.5 Pro), 마누스(Manus) 등 여러 최첨단 AI 에이전트 프레임워크를 평가했다. 평가는 AI 결과물을 인간 골드 스탠다드와 비교하는 엄격한 수동 평가 프로세스를 사용했다. 결과는 벤치마크에서의 성능이 현재 바닥 근처에 있음을 보여준다. 현재 최고 성능 AI 에이전트는 자동화율 2.5%를 달성했으며, 현실적인 프리랜싱 환경에서 의뢰받은 작업으로 받아들여질 수준으로 대부분의 프로젝트를 완수하지 못했다. 이는 지식과 추론 벤치마크에서의 빠른 진전에도 불구하고 현대 AI 시스템이 온라인 업무의 다양한 요구를 자율적으로 수행하는 것과는 거리가 멀다는 것을 보여준다.</p> <figure class="figure_frm origin_fig" contents-hash="ddfd6f96eb176ce85479c4fcb089535c342ca26aa8ca2ec4e2e6601866d238b5" dmcf-pid="tEKDh4YCj4" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/04/ZDNetKorea/20251104072016058nvvf.jpg" data-org-width="638" dmcf-mid="QjJYFgztNi" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/04/ZDNetKorea/20251104072016058nvvf.jpg" width="658"></p> </figure> <p contents-hash="eade6a5545772c58dd239114be7cc722aeee4894f45448ff9de2c6af06334292" dmcf-pid="FD9wl8Ghgf" dmcf-ptype="general"><strong>품질 저하 45.6%, 불완전한 결과물 35.7%... 주요 실패 원인 분석</strong></p> <p contents-hash="ec1a5335548b3c8cc416d99489e108e7c1473af8b272fdca6947050197e9cc2d" dmcf-pid="3w2rS6HlcV" dmcf-ptype="general">현재 시스템의 한계와 낮은 자동화율의 이유를 이해하기 위해 연구팀은 평가자들이 제공한 서면 평가를 클러스터링해 에이전트 실패에 대한 질적 분석을 수행했다. 약 400개의 평가에 걸친 질적 분석은 거부가 주로 다음과 같은 주요 실패 범주로 집중됨을 보여준다. 기술적 및 파일 무결성 문제로, 많은 실패가 손상되거나 빈 파일 생성, 잘못되거나 사용할 수 없는 형식으로 작업물 전달 같은 기본적인 기술적 문제 때문이었다(17.6%). 불완전하거나 형식이 잘못된 결과물로, 에이전트들이 자주 누락된 구성 요소, 잘린 비디오, 또는 소스 자산이 없는 불완전한 작업을 제출했다(35.7%). 품질 문제로, 에이전트가 완전한 결과물을 생성하더라도 작업의 품질이 자주 낮아 전문적 기준을 충족하지 못했다(45.6%). 불일치로, 특히 AI 생성 도구를 사용할 때 AI 작업이 종종 결과물 파일 간 불일치를 보였다(14.8%).</p> <p contents-hash="e8803004633eb91fbd30340f99656574170edd740f4c163dec1c03d8bdbb7a75" dmcf-pid="0rVmvPXSa2" dmcf-ptype="general"><strong>오디오 편집과 이미지 생성에서는 인간 수준 달성</strong></p> <p contents-hash="2d44f48265d1a5f77f32d95767529225a285fb18b984caac2fb557fd81e6b435" dmcf-pid="pmfsTQZvo9" dmcf-ptype="general">소수의 프로젝트에서 AI 결과물이 인간 결과물과 비교 가능하거나 더 나은 것으로 평가됐다. 이들은 주로 창의적 프로젝트, 특히 오디오 및 이미지 관련 작업과 작문 및 데이터 검색 및 웹 스크래핑이었다. 구체적으로 연구팀이 테스트한 모든 모델에 걸쳐 성능이 여러 오디오 편집, 믹싱 및 제작 작업(예: 레트로 비디오 게임용 맞춤 음향 효과 생성, 단일 트랙에서 보컬과 반주 분리, 인트로 및 아웃트로 음악과 보이스오버 병합)과 이미지 생성 작업(예: 광고 및 로고 생성)에서 인간 기준선과 일치하거나 초과했다. AI는 또한 보고서 작성과 대화형 데이터 시각화용 코드 생성에서도 좋은 성과를 보였다.</p> <p contents-hash="ce61ac8d252ca4b88be5fdb0f6371ddffcd739aaa37dee4c8fa4ed3ae837c768" dmcf-pid="Us4Oyx5ToK" dmcf-ptype="general"><strong>FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="a3f94637ca87839d0c74c3c3eba69fef354193d6a40df85dcf833c9dca6c4493" dmcf-pid="uO8IWM1ykb" dmcf-ptype="general"><strong>Q1. 원격 노동 지수(RLI)는 어떻게 만들어졌나요?</strong></p> <p contents-hash="b1364a6a821491399076107f815e2bf80602c9b8094fbb8582d2eef52d215fe5" dmcf-pid="7I6CYRtWkB" dmcf-ptype="general">A: RLI는 업워크 같은 프리랜서 플랫폼에서 실제로 거래된 프로젝트들을 수집해 만들어졌습니다. 358명의 검증된 프리랜서로부터 550개의 초기 프로젝트를 수집했고, 여러 단계의 검토와 정제 과정을 거쳐 최종 240개 프로젝트를 선정했습니다. 각 프로젝트는 자체 완결적이고 재현 가능한 벤치마크가 되도록 철저히 점검됐습니다.</p> <p contents-hash="1bf6338cb7d45f58f040d31f9d36dd14c248639fb76c5f44f859967776199170" dmcf-pid="zCPhGeFYaq" dmcf-ptype="general"><strong>Q2. AI 결과물은 어떻게 평가하나요?</strong></p> <p contents-hash="5287d0a7308bfa26b65c6e421ede405f7321755d9d555c00b15bc8fa7c88b518" dmcf-pid="qhQlHd3Ggz" dmcf-ptype="general">A: 훈련된 평가자들이 AI 결과물을 인간이 만든 골드 스탠다드와 비교해 수동으로 평가합니다. 평가자들은 "합리적인 고객" 관점에서 AI 결과물이 의뢰받은 작업으로 받아들여질지 판단합니다. 평가자 간 일치율은 94.4%로 높은 신뢰성을 보입니다. 자동 평가 시스템으로는 불가능한 복잡한 멀티미디어 결과물을 평가하기 위해 이 방식을 사용합니다.</p> <p contents-hash="c789e2a714fc80d96afbbdfe543e80bac66511741ea91e6db98a4ef74e8a1b45" dmcf-pid="BlxSXJ0Hg7" dmcf-ptype="general"><strong>Q3. RLI는 모든 온라인 업무를 대표하나요?</strong></p> <p contents-hash="d6fe7e63d92220ea951fbe69f0f986043cb63148865ab861c6bd19d101cb1860" dmcf-pid="bGnH0NB3ou" dmcf-ptype="general">A: 아니요. RLI는 고객과의 상호작용이 필요한 업무(예: 과외), 팀 작업이 필요한 업무(예: 프로젝트 관리), 웹 기반 평가 플랫폼에서 렌더링할 수 없는 결과물(예: 데스크톱 애플리케이션 개발) 등은 제외합니다. 따라서 AI가 RLI에서 100% 자동화율을 달성하더라도 평가하지 않는 업무 유형에서는 여전히 인간보다 낮은 성과를 낼 수 있습니다.</p> <p contents-hash="81fad8a5cf3ea5620626eca00773a262652102dfe01f5f732b3d47b78ada17e4" dmcf-pid="KHLXpjb0oU" dmcf-ptype="general"><span arial="Arial," blinkmacsystemfont="BlinkMacsystemFont," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>■ 이 기사는 AI 전문 매체 ‘</span><span>AI 매터스</span><span arial="Arial," blinkmacsystemfont="BlinkMacsystemFont," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ </span><span>기사 원문 바로가기</span><span arial="Arial," blinkmacsystemfont="BlinkMacsystemFont," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>)</span></p> <p contents-hash="59eb58539fc1dba54bf6025d838a8af709c702c81473edc6ae66b65d9db9a3e8" dmcf-pid="9XoZUAKpap" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기