로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
배윤경, 영화 '젠플루언서'로 '칸 국제 시리즈 페스티벌' 참석
N
[연예뉴스]
슈주 콘서트, 펜스 와르르..려욱, 부상자들과 병원 동행 [스타이슈]
N
[연예뉴스]
‘미혼남녀’ 문정희, 종영 소감 “멋지게 봐주셔서 감사”
N
[IT뉴스]
1.7조弗 vs 1.3조弗…엇갈린 스페이스X 기업가치
N
[IT뉴스]
에티버스그룹 이노그리드, 1년 만에 NHN 품으로 가나…IPO 구상 변수
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]"파 송송 썰어줘~" 미묘한 우리말 맥락…정부가 AI에 가르친다
온카뱅크관리자
조회:
11
2026-04-06 16:07:31
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">국립국어원 '멀티모달 말뭉치' 구축<br>영상·음성·텍스트 연계 데이터 16만 건<br>국내 기업이 활용하도록 개방 추진<br>글로벌 빅테크 모델 한계 극복 첫걸음</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="17xmfFwaD0"> <figure class="figure_frm origin_fig" contents-hash="59841a18a7e6bfa83b048eaa4bded410fd7a4ca4c3fade19d66b46074674980e" dmcf-pid="tzMs43rNI3" dmcf-ptype="figure"> <p class="link_figure"><img alt="Getty Images Bank" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/06/ked/20260406155847158pwop.jpg" data-org-width="1200" dmcf-mid="5sZ8ykfzsp" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/06/ked/20260406155847158pwop.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> Getty Images Bank </figcaption> </figure> <p contents-hash="7e02851441642f3b1caf9306ee47e931b67b83d93b0205233139b6a7209aae9b" dmcf-pid="FqRO80mjwF" dmcf-ptype="general">정부가 글로벌 빅테크 중심의 인공지능(AI) 공습에 맞서 ‘디지털 문화 주권’ 확보에 본격 착수했다. 단순히 문장을 읽고 쓰는 수준을 넘어 한국인의 고유한 동작과 상황 맥락이 담긴 ‘장면’ 자체를 AI에게 학습시키겠다는 구상이다. 글로벌 AI 모델에서 한국 문화가 왜곡되거나 주변화되는 현상을 막고, 차세대 로봇 산업의 핵심인 ‘피지컬 AI’ 인프라 경쟁에서도 뒤처지지 않겠다는 전략으로 풀이된다.</p> <p contents-hash="69ad15d1baa57f6da0df50e9a28725d206c82c6dffffc6787ea1cee0b34f5b24" dmcf-pid="3BeI6psAmt" dmcf-ptype="general"><strong><span> ◇ 韓 문화 왜곡하는 AI 바로잡는다</span></strong></p> <p contents-hash="8a971a3be0b494c064cc202400ffa097250c3410eebb03aedb603995196fc66d" dmcf-pid="0bdCPUOcE1" dmcf-ptype="general">6일 챗GPT와 제미나이에 국가 보물 ‘경주 얼굴무늬 수막새’를 그려달라고 요청하자 기와가 아니라 독립된 석조 조형물이 화면에 나타났다. 흙을 구워 생긴 거친 질감은 사라지고, 유물엔 없는 문양과 장식 테두리가 생겼다. 아시아의 조각 양식을 뒤섞어 내놓은 이른바 ‘시각적 할루시네이션(환각)’이 발생한 것이다.</p> <p contents-hash="b830e2dd0ee10659929dbbda88ce50458baac9cbb731b65f6a35f4b13d427e06" dmcf-pid="pKJhQuIkw5" dmcf-ptype="general">인공지능(AI)이 한국 문화를 잘못 학습해 왜곡하는 문제는 AI가 본격화한 이후 어제오늘 일이 아니다. 정부는 이런 현상을 막기 위해 한국 AI 학습 대응에 나섰다. 선봉엔 문화체육관광부 산하 국립국어원이 섰다. 국립국어원이 쌓아놓은 대규모 한글 데이터에 영상과 음성 등을 붙인 데이터를 구축하겠다는 구상이다. 이를 한국 AI 모델에 학습시키고 이후 산업 현장의 휴머노이드 로봇 등 피지컬AI에도 적용한다는 방침이다.</p> <p contents-hash="8084924d194dab90846ad78c1ed377da07b1b122bcfd486db30d673634ede3e9" dmcf-pid="U9ilx7CEsZ" dmcf-ptype="general">국립국어원은 지난달부터 ‘한국언어문화 멀티모달 말뭉치 구축 사업’을 시작했다. 영상, 음성, 이미지, 텍스트를 유기적으로 연계한 데이터를 구축하는 프로젝트다. 지시문을 기반으로 총 16만 개 규모의 멀티모달 데이터를 확보하는 게 목표다. 올해 예산은 약 15억5000만원으로 적지만 내년엔 더 확보해 AI 학습 사업을 확대한다는 계획이다.</p> <p contents-hash="2fd55208a841518d2f22b266451a2cfc43cdfd1811110d45d57094b54193d910" dmcf-pid="u2nSMzhDIX" dmcf-ptype="general">말뭉치는 실제 사용하는 언어 사례를 모아 정리한 대규모 데이터다. 그간 텍스트를 중심으로 데이터를 모았다면 이제 특정 단어가 쓰일 때의 표정, 주변 사물의 위치, 목소리 톤까지 기록해 AI에 ‘현실 세계’를 통째로 가르친다. 정부가 영상과 음성이 결합된 ‘멀티모달 말뭉치’ 구축에 나선 것은 처음이다.</p> <p contents-hash="115f2ac121ac71873d2b402119c458ba054ecbe6fd545a5a8c77b84130c43c60" dmcf-pid="7S0RZsx2mH" dmcf-ptype="general">사업 배경엔 기존 데이터 구조의 한계가 있다. 텍스트만으로는 한국어 특유의 ‘상황 맥락’을 온전히 전달하기 어렵다.</p> <p contents-hash="d7181539ff7f61f918ab2ee574b393bc6b6105f02d8bafcc975f84d3cc03ccbf" dmcf-pid="zvpe5OMVwG" dmcf-ptype="general">예컨대 사람은 ‘파를 송송 썰어줘’라고 말하고 적지만 AI는 ‘송송’의 구체적 이미지를 알기 어렵다. 국립국어원 관계자는 “한국어는 같은 표현이라도 상황과 동작에 따라 의미가 달라지는 특성이 있다”고 설명했다. 국립국어원은 표준국어대사전의 정의를 기반으로 단어의 피상적 의미를 넘어 동작 속도와 힘의 강도, 손의 궤적 등 물리적 요소까지 세분화해 데이터화한다는 목표다.</p> <p contents-hash="b1849295dce0ff33c9de50b854f8f25922e13aed2f73ff7f018517a511580486" dmcf-pid="qTUd1IRfIY" dmcf-ptype="general"><strong><span> ◇ 피지컬AI 학습이 목표</span></strong></p> <p contents-hash="90bb1e217687358d28856b83ee0da3c6e4aab4427d35d5cf09a7de10962d7728" dmcf-pid="ByuJtCe4rW" dmcf-ptype="general">정부는 한글 멀티모달 데이터를 피지컬AI 등 신산업에 적용하는 방안도 모색하고 있다. 16만 건 규모의 데이터는 국내 기업이 활용할 수 있는 표준 학습 데이터로 사용될 전망이다. 정부는 올해 구축을 마친 뒤 내년부터 데이터를 민간에 전면 개방해 국내 AI 및 로봇 기업의 개발 속도를 끌어올린다는 방침이다. 국립국어원이 “이번 사업은 ‘소버린(주권) AI’를 구축하기 위한 첫걸음”이라고 한 이유다.</p> <p contents-hash="281e0ca4f56d62cd2148c1effbb0c08cc20abac130ea945d7affa8b127ef8198" dmcf-pid="bW7iFhd8Oy" dmcf-ptype="general">글로벌 빅테크는 멀티모달 데이터 확보에 사활을 걸고 있다. 이들이 방대한 범용 데이터를 쌓는 사이 정부는 한국적 맥락에 특화한 ‘고농축 동작 데이터’로 승부수를 던졌다는 분석이 나온다. 글로벌 모델이 학습하기 어려운 한국 특유의 문화적 디테일을 데이터화해 AI 로봇산업의 틈새 경쟁력을 확보하겠다는 전략이다. 16만 건 규모로는 글로벌 기업과의 데이터 경쟁에 한계가 있다는 지적이 있지만, 고품질 표준 데이터를 먼저 확보하고 이를 기반으로 확장하는 전략이 효과적이라는 평가도 동시에 나온다. 장영재 KAIST 산업시스템공학과 교수는 “피지컬AI 시대에는 단순히 동작을 따라 하는 수준을 넘어 상황에 맞는 최적의 판단을 내리는 것이 중요하다”며 “데이터의 절대적인 양보다 언어와 동작 사이 미세한 간극을 메우는 고품질 데이터가 산업의 성패를 가를 것”이라고 말했다.</p> <p contents-hash="2bd22094a172e82eacae0b7c8bec450a4df92cd36a18608d9efa2ba7c442a791" dmcf-pid="KYzn3lJ6IT" dmcf-ptype="general"><strong><span> ◇ 민간도 멀티모달 로컬 데이터 경쟁</span></strong></p> <p contents-hash="4f3905b4fc4babe90257e95e54ca4e9a2a1ba3d34a11b8771811a7b17d9be2f7" dmcf-pid="9GqL0SiPrv" dmcf-ptype="general">국내 인공지능(AI) 기업들도 글로벌 빅테크 모델의 한계를 파고들며 ‘고밀도 로컬 데이터’ 확보 경쟁에 나서고 있는 중이다. 표준어 중심으로 학습된 글로벌 모델이 한국의 산업 현장과 일상 언어를 충분히 반영하지 못하는 틈을 공략하겠다는 전략이다.</p> <p contents-hash="dce22e7c9c19a531fbd7466daf9714a5035f20f88e96ebf20fe77034b08e37a7" dmcf-pid="2HBopvnQrS" dmcf-ptype="general">국내 피지컬 AI 스타트업 페르소나AI가 최근 공개한 사투리 음성 인식 모델 ‘SSTT(Sovereign AI Speech to Text)’가 대표적이다. 이 모델은 총 5만 시간의 학습 데이터 중 약 26%인 1만3200시간을 경상·전라·충청·강원·제주 등 5대 권역 방언으로 채웠다. 단순 음성 인식을 넘어 실제 산업 현장에서 발생하는 ‘비정형 발화’를 학습시키기 위한 설계다.</p> <p contents-hash="7cb69142825df2297fe97ebd224e8e2cf8716821a4924952628ad0049b1ec28a" dmcf-pid="VXbgUTLxOl" dmcf-ptype="general">이 같은 시도는 글로벌 AI 모델의 구조적 한계를 겨냥한다. 업계에 따르면 표준어 기반으로 학습된 글로벌 AI 모델은 일상 대화에서는 높은 성능을 보이지만, 소음이 심하고 방언이 섞인 제조·건설 현장에서는 인식률이 크게 떨어지는 것으로 알려졌다. 예컨대 ‘기계를 정지해 주세요’ 같은 정제된 문장은 이해하지만, 지역별 사투리와 현장 용어가 섞인 긴급 지시는 정확히 해석하지 못하는 경우가 발생한다. 페르소나AI 관계자는 “현장에서의 인식 오류는 작업 지시 미흡이나 안전사고로 직결될 수 있다”며 “피지컬 AI 시대에는 현장 데이터의 정밀도가 곧 기술 경쟁력”이라고 말했다.</p> <p contents-hash="473aa874c8985652aa6d9d3c45e7d4fe9b9d288f4d64063bd489c520bf5d060d" dmcf-pid="fZKauyoMDh" dmcf-ptype="general">안정훈 기자 ajh6321@hankyung.com</p> </section> </div> <p class="" data-translation="true">Copyright © 한국경제. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기