로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
미 1월 도매물가 전월대비 0.5%↑…관세비용 가격반영 시사(종합)
N
[스포츠뉴스]
‘셔틀콕 여제’ 안세영, 전영오픈 2연패 시동
N
[스포츠뉴스]
"당구여신도 좋지만, 김가영 킬러라고..." LPBA 뉴스타 정수빈을 만나다 [인터뷰①]
N
[연예뉴스]
‘엠카운트다운’ 신예 DAILY:DIRECTION, 타이틀곡 ‘ROOMBADOOMBA’로 강렬한 데뷔 신고식
N
[연예뉴스]
‘살림남’ 박서진, 동생 효정 건강 상태에 경악···“체지방률, 폐경기 여성보다 높아”
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]S2W, LLM 토크나이저 취약성 규명 논문 EMNLP 2025 채택
온카뱅크관리자
조회:
55
2025-11-10 17:07:32
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">비영어권서 토크나이저 불완전 토큰이 환각 유발…소버린 AI 논의에 시사점 제공</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Z8szrciPj4"> <p contents-hash="fb44c3c6cf629235891a82d427ae90a47b70cde45ab1f84883da5b44c62a4903" dmcf-pid="56OqmknQof" dmcf-ptype="general">(지디넷코리아=남혁우 기자)<span> 에스투더블유(S2W)와 KAIST 공동연구팀의 대규모언어모델(LLM) 토크나이저 취약성 규명 논문이 세계 최고 권위 자연어처리 학회인 EMNLP 2025에 채택됐다.</span></p> <p contents-hash="a38d80686430f1e7a8a92f91e05df0db8360439e56e8db4a4429b653f5c1e7cd" dmcf-pid="1PIBsELxNV" dmcf-ptype="general">에스투더블유와 한국과학기술원(KAIST) 연구진은 2025년 EMNLP에 논문을 게재한다고 10일 밝혔다.</p> <p contents-hash="50276f3ccd5a96109435204d661c8bed150a592d07256916e707c3eb9e55eac6" dmcf-pid="tQCbODoMc2" dmcf-ptype="general">이번 채택으로 에스투더블유는 글로벌 최고 권위 AI 학회에 4년 연속 논문을 등재하는 성과를 거뒀다.</p> <figure class="figure_frm origin_fig" contents-hash="fe0f58f0727ddc68e0ee2b501b78e0162ffc52fe93c0350fb38de9f3995f0750" dmcf-pid="FxhKIwgRo9" dmcf-ptype="figure"> <p class="link_figure"><img alt="에스투더블유, LLM 토크나이저 취약성 규명 연구로 세계 최고 권위 AI 학회 ‘EMNLP 2025’ 논문 채택(이미지=에스투더블유)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/10/ZDNetKorea/20251110170654480zbhv.jpg" data-org-width="638" dmcf-mid="XXbcqpHlk8" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/10/ZDNetKorea/20251110170654480zbhv.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 에스투더블유, LLM 토크나이저 취약성 규명 연구로 세계 최고 권위 AI 학회 ‘EMNLP 2025’ 논문 채택(이미지=에스투더블유) </figcaption> </figure> <p contents-hash="44de88f30ae97f20167b7046d3b024d1358df6e78b5171d751d93adaba7e134d" dmcf-pid="3Ml9CraekK" dmcf-ptype="general">'비정상적 단어쌍을 통해 드러난 바이트 단위 토크나이저의 불완전 토큰 취약성'라는 제목의 이번 <span>논문은 대규모언어모델(LLM) 내부의 토크나이저 구조가 환각(hallucination)을 유발할 수 있음을 실험적으로 </span><span>규명한 내용이다. </span></p> <p contents-hash="fe58d13b19810cc1e8f04183d9a4d069ac9000b0555b2dfad96aeb698c5c8b87" dmcf-pid="0RS2hmNdjb" dmcf-ptype="general">연구진은 특히 바이트 단위로 문자를 분해·처리하는 바이트 레벨 토크나이저에서 '불완전 토큰'이 생성되는 과정을 분석했다. <span>불완전 토큰은 문자 경계가 잘려 의미가 온전하게 보존되지 않은 토큰을 뜻한다.</span></p> <p contents-hash="a371ac7f058b59b4902b84a85badf8066e6372bce77b42b51e50f1f88c082d86" dmcf-pid="pevVlsjJAB" dmcf-ptype="general">연구 결과에 따르면 불완전 토큰은 비정상적 바이그램(improbable bigram) 패턴을 만들어낸다. <span>이런 패턴은 모델이 문맥을 잘못 복원하게 하고, 궁극적으로 사실과 다른 내용을 생성하는 환각으로 이어질 수 있다.</span></p> <p contents-hash="65f82b6fd69d4fda29dddc499b96a8604865a2ebfaeb6dd819748683617a0871" dmcf-pid="UdTfSOAiAq" dmcf-ptype="general">영어는 문자당 1바이트로 표현되지만 한국어·일본어·중국어 등은 한 글자가 여러 바이트로 표현된다. <span>이로 인해 바이트 페어 인코딩(BPE) 기반 토크나이저는 비영어권 언어에서 불완전 토큰을 더 자주 생성하는 경향을 보였다.</span></p> <p contents-hash="f14ec73387a57979b61e38a61991c818271176d19a97d97bb7e6f8931b4d51cb" dmcf-pid="uOqj73YCaz" dmcf-ptype="general">에스투더블유 공동저자이자 최고기술책임자(CTO)인 박근태 연구원은 "이번 논문은 소버린 AI 논의에 중요한 시사점을 준다"며 "토크나이저가 자국어를 안정적으로 처리하지 못하면 자국어 기반 AI 모델의 신뢰성을 확보하기 어렵다"고 설명했다.</p> <p contents-hash="63cb297549d56fb265b9e537beb8f32619e3cae005bcd9d13ba0e8702e5c66df" dmcf-pid="7IBAz0Gho7" dmcf-ptype="general">박 CTO는 이어 "S2W는 신뢰할 수 있는 AI를 만들기 위한 선도적 연구를 지속 창출할 것"이라고 덧붙였다.</p> <p contents-hash="c0988d9af80b8e94bebfeca2ed790c9b3459d3a8eb3f83f0c7bc3979eada3cc4" dmcf-pid="zCbcqpHlNu" dmcf-ptype="general">에스투더블유는 2022년 다크웹 언어 관련 연구, 2023년 다크버트(DarkBERT) 관련 ACL 채택, 2024년 자체 개발 사이버보안 문서 특화 모델 '사이버튠(CyBERTuned)' 관련 NAACL 발표 등으로 학계와 산업계에서 연속적인 연구 성과를 쌓아왔다.</p> <p contents-hash="72e19df63a0c12c11ea4ce1fe64c421e3b715298d398abe88757f550820f7e65" dmcf-pid="qhKkBUXSNU" dmcf-ptype="general">이번 연구는 특히 비영어권 사용자 경험과 모델 신뢰성 개선, 국가 차원의 AI 정책과 데이터 전략 수립에 활용될 수 있다는 점에서 의미가 크다.</p> <p contents-hash="a940176fd847aa1098d1c4fd3630d86912b6d08e478bec18e7f73024ab3b119d" dmcf-pid="Bl9EbuZvap" dmcf-ptype="general">연구진은 향후 토크나이저 설계 개선 방안과 언어별 전처리 기법 보완을 통한 환각 저감 연구를 계속해 나갈 계획이라고 밝혔다.</p> <p contents-hash="491a4190815e48af7e384be540c127fa95c112f388675b6ed93d88d1bc95cbb0" dmcf-pid="bS2DK75To0" dmcf-ptype="general">남혁우 기자(firstblood@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기