로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
박수홍 항소심서 친형 부부 대면해...항소심서 박수홍 증인채택
N
[실시간뉴스]
[단독]‘文 딸에 송금 의혹’ 전 춘추관장 소환조사
N
[실시간뉴스]
[여랑야랑]대통령도 놀란 결과 / 홍준표, 뒤끝 때문에? / 이재명, 기가 막힌 ‘덜렁덜렁’
N
[연예뉴스]
'노숙' 구혜선, 집 짓기 전 해프닝…어마어마한 주택 완공 예상도 '눈길' [종합]
N
[연예뉴스]
꼭 잡은 두손…김기리♥문지인 결혼, 날씨도 축복한 '선남선녀' 부부 탄생[종합]
N
커뮤니티
더보기
[자유게시판]
불금 건승파이팅합시다!!
N
[자유게시판]
퇴근이 머지 않았네요~
N
[자유게시판]
불타는 금요일
N
[자유게시판]
시간은 너무 지루하고 졸립니다...
N
[자유게시판]
맛점이요~
N
목록
글쓰기
[IT뉴스]‘AI 학습 사이트’ 톱 10 중 절반이 뉴스
온카뱅크관리자
조회:
30
2024-05-03 03:01:41
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">빅테크, AI 개발에 뉴스 콘텐츠 이용<br>막대한 수익에도 사용료 안 내 논란… 각국 법제화 나서<br>국내 기업들도 대가 지불 안해</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="zGXxLaP30K"> <figure class="figure_frm origin_fig" dmcf-pid="qiLG3UWA0b" dmcf-ptype="figure"> <p class="link_figure"><img alt="이미지=게티이미지뱅크, 그래픽=김하경" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202405/03/chosun/20240503030143564pkvw.jpg" data-org-width="1200" dmcf-mid="u36OyGme02" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202405/03/chosun/20240503030143564pkvw.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 이미지=게티이미지뱅크, 그래픽=김하경 </figcaption> </figure> <p dmcf-pid="BnoH0uYc7B" dmcf-ptype="general">글로벌 빅테크 간에 인공지능(AI) 모델 경쟁이 불붙으면서, 개발 과정에 필수적인 AI 학습 콘텐츠의 저작권을 둘러싼 논란이 전 세계적으로 거세지고 있다. 빅테크는 AI 모델로 막대한 수익을 얻고 있지만, AI 개발 때 양질의 뉴스 콘텐츠를 대거 사용하고도 합당한 사용료를 내지 않는다는 지적이 잇따르고 있다.</p> <p dmcf-pid="bgN5uqXD3q" dmcf-ptype="general">미국 일간 워싱턴포스트(WP)가 AI 훈련에 사용되는 거대 데이터 세트인 구글 ‘C4′의 1000만개 이상 웹사이트(2023년 기준)를 분석한 결과, AI에 가장 많은 정보를 제공한 웹사이트 상위 10개 중 5개가 뉴스 사이트인 것으로 나타났다. 미국의 뉴욕타임스(NYT)가 4위, LA타임스가 6위, 영국의 가디언이 7위였다. 웹사이트 리스트를 상위 100개로 늘려도 뉴스 사이트는 51개로 비중이 절반을 넘어섰다. AI 업계 관계자는 “언론 외 다른 웹사이트의 콘텐츠도 뉴스를 인용하거나 참고한 것이 많다”며 “콘텐츠의 출발점까지 거슬러 가면, AI 학습에 뉴스 콘텐츠의 기여도는 압도적”이라고 말했다.</p> <p dmcf-pid="Kaj17BZwuz" dmcf-ptype="general">AI 훈련용 데이터 시장은 급성장하고 있다. 지난달 10일 시장조사 업체 스트레이츠 리서치는 2030년 글로벌 AI 훈련용 데이터 시장 규모가 72억달러(약 10조원)에 육박할 것이라는 결과를 내놨다. 2021년 13억달러에서 9년 후 6배로 급성장한다는 것이다. 이에 따라 전 세계적으로 AI 학습 콘텐츠의 저작권에 대한 법제화 작업도 활발하다. 지난달 초 미국 하원에서는 생성형 AI 저작권 공개법이 제출돼 현재 하원에 계류 중이다. 구글 등은 미디어와 저작권 사용 계약을 맺기도 했다.</p> <p dmcf-pid="9TW8dnf537" dmcf-ptype="general">하지만 국내에선 이런 논의 자체가 전혀 없다. 네이버 등은 뉴스 콘텐츠를 활용해 AI를 학습시키고 있지만, 대가를 지불하지 않고 있다. 이혁재 서울대 전기·정보공학부 교수는 “뉴스를 중심으로 양질의 데이터를 확보하는 것이 AI 업체의 격전지가 될 것”이라며 “데이터 품질을 높이는 데 도움이 되는 회사를 인수하거나 콘텐츠 사용료를 내는 등 협력 움직임이 많아질 수밖에 없다”고 말했다.</p> <figure class="figure_frm origin_fig" dmcf-pid="2yY6JL41zu" dmcf-ptype="figure"> <p class="link_figure"><img alt="그래픽=김하경" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202405/03/chosun/20240503030145214yayd.png" data-org-width="480" dmcf-mid="7NcFqK1mz9" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202405/03/chosun/20240503030145214yayd.png" width="658"></p> <figcaption class="txt_caption default_figure"> 그래픽=김하경 </figcaption> </figure> <p dmcf-pid="VWGPio8t7U" dmcf-ptype="general">워싱턴포스트(WP)가 미국 시애틀에 있는 앨런 인공지능 연구소와 함께 분석한 구글의 AI 훈련용 데이터세트 ‘C4′에서 AI 모델에 가장 많은 정보값을 제공한 것은 뉴스 콘텐츠다. 분석에 사용된 1000만개 웹사이트 중 뉴스·미디어 웹사이트 비율은 13%지만, AI 모델이 처리한 데이터양(토큰)을 기준으로 봤을 때 이 뉴스 사이트들이 대부분 100위권 이내로 집중돼 있다.</p> <p dmcf-pid="f1FJjke7zp" dmcf-ptype="general">C4에서 AI 모델이 단일 웹사이트에서 가장 많은 정보를 처리한 곳은 구글의 특허 문서 검색 사이트다. 하지만 웹사이트 상위 30개 중 14개는 뉴스 사이트다. 해당 리스트에서 상위권에 뉴스·미디어만큼이나 AI 학습에 많은 정보를 제공하는 카테고리는 없었다. 테크 업계 관계자는 “다양한 블로그나 유튜브, 심지어는 논문까지 뉴스에서 보도된 사안을 재생산하는 경우가 많기 때문에, 실제로 AI 훈련에 사용되는 뉴스 콘텐츠는 단순 뉴스 웹사이트 이상으로 많다고 봐야 한다”고 말했다.</p> <p dmcf-pid="4t3iAEdzz0" dmcf-ptype="general">◇AI 시대 양질의 뉴스 콘텐츠</p> <p dmcf-pid="8F0ncDJq33" dmcf-ptype="general">테크 기업들이 AI 훈련에 뉴스 콘텐츠를 이토록 많이 사용하는 것은 데이터를 먹고 자라는 AI 모델에 뉴스는 문제를 일으키지 않는 ‘건강식’이기 때문이다. 욕설이나 선정적인 문구가 없는 데다, 법적 서류나 논문, 소설 등과 다르게 현실 세계의 정보를 실시간으로 업데이트하는 것도 강점이다. 미국 싱크탱크 브루킹스연구소는 “저널리즘은 실시간 정보, (특정 사안의) 맥락, 사실 확인 등을 제공하는 생성형 AI 서비스에 특히 유용하다”며 “다양한 주제, 속보, 탐사 보도 등에 강점을 갖춘 저널리즘은 가짜 뉴스 등 ‘정보의 재앙’에서 이용자에게 시의적절한 정보를 제공하는 서비스에 도움이 될 것”이라고 평가했다. 테크 업계 관계자는 “이는 테크 기업들이 저작권 문제를 알고 있음에도 뉴스를 AI 훈련에 사용하는 이유”라고 말했다.</p> <p dmcf-pid="6Cl9QRbYUF" dmcf-ptype="general">빅테크들이 AI 훈련에 뉴스 콘텐츠를 선호하는 데는 보다 현실적인 이유가 있다. 예전의 AI는 트위터(현 X), 레딧 등 소셜미디어에 공개된 텍스트를 기반으로 훈련하는 경우가 많았다. 저작권 문제는 없었지만, 저속한 표현이나 가짜 정보가 넘쳐났다. 업체들은 AI 학습 전에 이렇게 잘못된 정보와 표현을 걷어내야 하는데, 그에 따르는 비용이 많이 들었다. 오픈AI는 이처럼 AI가 폭력성이나 편견에 가득한 발언을 하는 것을 막기 위해 아프리카에서 수년간 저임금 노동자 1000여 명을 고용해 대대적인 ‘데이터 클리닝’ 작업에 나서기도 했다. 현재 테크 업계에선 오픈AI 같은 AI 기업들이 이 같은 작업에 매년 수백만~수천만 달러를 투자하고 있는 것으로 보고 있다.</p> <p dmcf-pid="PhS2xeKGut" dmcf-ptype="general">◇빅테크, 뉴스 콘텐츠에 사용료 지급</p> <p dmcf-pid="QlvVMd9H01" dmcf-ptype="general">AI 훈련에 뉴스 콘텐츠를 활용하기 위해 테크 업체들이 미디어 기업과 콘텐츠 사용 계약을 맺는 경우가 조금씩 늘고 있다. 특히 지금까지 편법을 동원해 무단으로 뉴스 콘텐츠를 사용한 것에 대한 소송전이 늘어나면서 합법적인 계약을 맺으려는 움직임이 빨라지고 있다. 여기에 지난 2월 리처드 블루먼솔 미 상원 의원이 “뉴스 콘텐츠가 AI 챗봇에 무료로 사용되는 것을 방지하는 데 의회가 역할을 해야 한다”고 강조하며, 미국 정계가 움직이기 시작했다. AI 업계에선 데이터 클리닝(정제)에 사용되는 비용이 수년 안에 연간 수억 달러로 크게 늘어날 것으로 예측되면서, 고품질의 데이터를 합법적으로 구매하는 게 오히려 AI 개발 비용 절감으로 이어질 수 있다는 평가도 나오고 있다.</p> <p dmcf-pid="xDru24phz5" dmcf-ptype="general">실제로 지난 30일 시카고트리뷴, 덴버포스트 등 8사가 오픈AI와 마이크로소프트(MS)를 상대로 뉴스 콘텐츠를 무단으로 썼다는 소송을 진행하자, 오픈AI는 즉시 “뉴스 파트너들과 함께 협력 관계를 구축하겠다”고 성명을 냈다. 테크 업계 관계자는 “모든 테크 기업이 물밑으로 미디어 기업들과 만나며 협상하고 있는 단계”라며 “구글이 세계 최대 미디어 그룹인 뉴스코퍼레이션과 연간 600만달러에 달하는 계약을 하는 것과 같은 사례가 늘어날 것”이라고 했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
올나잇스머프
100
2
풀카
100
3
노익스플로드
100
4
미국하키원툴
100
업체홍보/구인
더보기
[제작업체홍보]
h5웹미니게임개발제작 라이브스코어제작 커뮤니티제작 스포츠솔루션제작임대
[제작업체홍보]
h5웹미니게임개발제작 포유소프트 텔레그램 @fusoft001 스포츠 토토 솔루션제작임대분양
[제작업체홍보]
h5웹미니게임개발제작 포유소프트 텔레그램 @fusoft001 스포츠 토토 솔루션제작임대분양
[제작업체홍보]
h5웹미니게임개발제작 라이브스코어제작 커뮤니티제작 스포츠솔루션제작임대
[구인]
커뮤니티 사이트 운영자 모집
지식/노하우
더보기
[카지노 노하우]
룰렛 초보자들은 3 가지 배팅만 사용하세요
N
[카지노 노하우]
바카라의 수익은 금액 조절을 이용한 줄타기에서 나옵니다
N
[카지노 노하우]
카지노 게임하기 전에 컨디션 체크부터 하세요
[카지노 노하우]
슬롯머신 잘하는 방법은 그냥 금액 조절뿐입니다
[기타 지식/노하우]
먹튀사이트의 전형적인 특징
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기