로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[스포츠뉴스]
한국, 북중미 월드컵서 멕시코-남아공-유럽 PO 승자와 A조 편성
N
[스포츠뉴스]
일본에 막힌 한국 탁구…혼성단체 월드컵 결승 진출 이뤄낼까
N
[스포츠뉴스]
32강 가도 브라질이라니, 일본 '죽음의 조' 어게인?…북중미 월드컵, 일본의 운명은?
N
[실시간뉴스]
"하루 13시간 일하고 한달 300만원 벌어"...한국 카페 문제 다룬 NYT
N
[IT뉴스]
"갈릭갈아 제미나이3 반격"…오픈AI '차세대 고효율GPT' 승부수
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상
온카뱅크관리자
조회:
16
2025-12-01 16:47:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QfkFtXTsai"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="x4E3FZyOoJ" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="f17d417da08281ed9c5596d6c86a929ebddae55ebb3739ea5842ec449b309fe7" dmcf-pid="yhzagix2cd" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/01/ZDNetKorea/20251201163840357jfxu.jpg" data-org-width="640" dmcf-mid="PyyfVbUZgn" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/01/ZDNetKorea/20251201163840357jfxu.jpg" width="658"></p> </figure> <p contents-hash="bd43da01c9fd9d7db74cc7239e437a035e5f5ac64cc7c73213ba0f4732bdfdbe" dmcf-pid="WlqNanMVke" dmcf-ptype="general">중국 알리바바의 Qwen 팀이 AI 언어모델의 오래된 문제를 해결하는 간단한 방법을 찾아냈다. 마치 문지기처럼 작동하는 '게이트'라는 장치를 AI 내부에 추가했더니, 성능이 크게 좋아지고 학습도 안정적으로 이뤄졌다. 특히 AI가 대화나 글의 첫 부분만 과도하게 집중하는 '어텐션 싱크'라는 고질적 문제가 완전히 사라졌다. 해당 논문에 따르면, 연구팀은 150억 개 파라미터 규모의 모델과 17억 개 규모의 모델에서 30가지 이상의 실험을 진행했고, 3조 5,000억 개의 단어 데이터로 검증했다.</p> <p contents-hash="4d1d9631e5384d6adf413b8d2fa00d6ecf508ea9fac998870851f19bf93165e8" dmcf-pid="YSBjNLRfNR" dmcf-ptype="general"><strong>문지기 역할 하는 '게이트' 추가했더니 AI 성능 껑충 뛰었다</strong></p> <p contents-hash="5ec9552076c110ff0cea316ea4180ed9f1aa963ed2ec963c61ed72e9a0511b5c" dmcf-pid="GvbAjoe4AM" dmcf-ptype="general">연구팀은 AI가 정보를 처리하는 핵심 부분인 '어텐션 레이어' 5곳에 게이트를 설치하는 실험을 했다. 게이트는 일종의 필터나 문지기 역할을 한다. 중요한 정보는 통과시키고 불필요한 정보는 걸러내는 식이다. 실험 결과, '스케일드 닷 프로덕트 어텐션' 출력 직후에 게이트를 달았을 때 효과가 가장 좋았다.</p> <p contents-hash="582a9b0c22d35f66ee74b0c37c8724e48cadc8d50b0307a7e21687de7c4477b5" dmcf-pid="HTKcAgd8Ax" dmcf-ptype="general">150억 개 파라미터 모델에 게이트를 추가하자 AI가 다음에 올 단어를 더 정확하게 예측하게 됐고, 대학 수준의 지식을 묻는 시험에서도 더 많은 문제를 맞혔다. 예를 들어 100문제 중 59문제를 맞히던 AI가 게이트를 단 후에는 61문제를 맞히는 수준으로 개선된 것이다. 수학 문제 풀이나 일반 상식 질문 등 다양한 영역에서 일관되게 성능이 좋아졌다.</p> <p contents-hash="67bf8f7dcc1c137faf0d5d242ec341e6978cf3fb472cf6f88d86a5e08c5f311e" dmcf-pid="Xy9kcaJ6AQ" dmcf-ptype="general">게이트를 어떻게 다느냐도 중요했다. AI는 하나의 정보를 여러 개의 '주의 헤드'로 동시에 처리하는데, 이는 마치 여러 사람이 같은 글을 각자 다른 관점에서 읽는 것과 비슷하다. 각 헤드마다 독립적인 게이트를 달아줬더니 효과가 좋았다. 추가된 부품의 양은 전체 모델 크기에 비하면 아주 적었지만, 성능 향상은 확실했다.</p> <p contents-hash="dde3c4d169a6bf4a3e38c3ebe408875c2b1146a71a24ad60cc701ba99a2e2c32" dmcf-pid="ZlqNanMVAP" dmcf-ptype="general">반대로 여러 헤드가 하나의 게이트를 함께 쓰게 하면 효과가 떨어졌다. 이는 각 헤드가 서로 다른 역할을 하기 때문에 각자의 문지기가 필요하다는 뜻이다. 또한 게이트가 정보를 곱하는 방식으로 조절할 때가 더하는 방식보다 나았고, 시그모이드라는 특정 계산 방법을 썼을 때 가장 좋은 결과가 나왔다.</p> <p contents-hash="55865e7c0dfd2f03bdd1e575ccec5e9c5217fee317c41c1888efa5f3597a14c0" dmcf-pid="5SBjNLRfo6" dmcf-ptype="general"><strong>AI 학습 중 발생하는 '멘붕' 현상 거의 사라져</strong></p> <p contents-hash="6f107a62dc24ffbadf99a29a157a3ab24049bb8fe1d6e21c2985bec4c056d0ea" dmcf-pid="1vbAjoe4g8" dmcf-ptype="general">게이트를 추가하자 AI의 성능만 좋아진 게 아니라 학습 과정 자체도 훨씬 안정적으로 바뀌었다. 17억 개 파라미터 모델을 3조 개의 단어로 학습시키는 실험에서 이 차이가 확연히 드러났다. 게이트가 있는 모델은 학습 중에 '손실 스파이크'라는 문제가 거의 발생하지 않았다. 손실 스파이크는 AI가 순조롭게 학습하다가 갑자기 성능이 확 떨어지는 현상이다. 마치 학생이 공부를 잘하다가 갑자기 멘붕에 빠져서 이전에 알던 것까지 까먹는 것과 비슷하다. 이런 돌발 상황이 줄어들자 연구자들은 AI를 더 빠르게 학습시킬 수 있는 공격적인 설정을 사용할 수 있게 됐다.</p> <p contents-hash="693715e10be0d25e456f9a2c7df604be121876cb042bd50f9e51d0ce49fcdf3e" dmcf-pid="tTKcAgd8k4" dmcf-ptype="general">48개 층을 쌓은 17억 파라미터 모델에서 실험했을 때 그 차이는 더욱 분명했다. 기존 모델은 학습 속도를 높이면 중간에 완전히 망가져 버렸다. 반면 게이트를 단 모델은 똑같이 빠른 속도로 학습시켜도 끝까지 안정적으로 학습을 마쳤다.</p> <p contents-hash="6f9657c89dd765772a88b4a9e08a4f88c182a15e60d276cb222991c235f4b224" dmcf-pid="Fy9kcaJ6jf" dmcf-ptype="general">연구팀은 비교를 위해 '샌드위치 정규화'라는 다른 안정화 방법도 시험해 봤다. 이 방법을 쓰면 기존 모델도 간신히 학습을 마칠 수는 있었다. 하지만 최종 성능 개선은 거의 없었다. 게이트를 쓴 모델만이 빠른 학습 속도와 좋은 성능을 동시에 달성했다.</p> <p contents-hash="7f04b150c2084936cbb5678d2798904d1e20627fbd136b25090d0add86378524" dmcf-pid="3W2EkNiPAV" dmcf-ptype="general">게이트의 이런 효과는 한두 가지 조건에서만 나타난 게 아니었다. 층을 28개 쌓았을 때와 48개 쌓았을 때, 4,000억 개 단어로 학습시켰을 때와 3조 5,000억 개 단어로 학습시켰을 때, 다양한 학습 설정값을 사용했을 때 등 여러 상황에서 게이트는 일관되게 도움이 됐다. 이는 게이트가 특정 조건에서만 잘 작동하는 게 아니라 범용적으로 효과가 있다는 의미다.</p> <p contents-hash="95844bfdb7751ac6f8192e53f8c0cbfbe6f4772cfba0027f690c69d6f3a71544" dmcf-pid="0YVDEjnQo2" dmcf-ptype="general"><strong>게이트가 효과적인 두 가지 이유</strong></p> <p contents-hash="7eddee42724c3dfc49409e216e179037adf835d4f7cc6b6ccd4450b13625e30c" dmcf-pid="pGfwDALxo9" dmcf-ptype="general">연구팀은 왜 간단한 게이트 하나를 추가하는 것만으로 이렇게 큰 효과가 나타나는지 분석했다. 그 결과 두 가지 핵심 원리를 찾아냈다.</p> <p contents-hash="2ffc1f6c622b64ad497ad4285dcd5174cf7e1c6be370ee0f267da2ad988418ad" dmcf-pid="UH4rwcoMgK" dmcf-ptype="general">첫 번째는 정보 변환 과정에 '단계'를 추가했기 때문이다. AI 내부를 보면 밸류 변환과 출력 변환이라는 두 단계가 연속으로 일어난다. 문제는 이 두 단계가 모두 선형 변환이라서 수학적으로 하나로 합쳐질 수 있다는 점이다. 합쳐지면 AI의 표현 능력이 제한된다. 게이트를 두 단계 사이에 끼워 넣으면 비선형 요소가 추가되면서 두 단계가 완전히 분리된다. 이렇게 되면 AI가 더 복잡한 패턴을 학습할 수 있게 된다. 실제로 게이트 대신 '정규화'라는 다른 비선형 기법을 써봤을 때도 비슷한 효과가 나타났다. 이는 두 변환 단계 사이에 비선형 요소를 넣는 것 자체가 중요하다는 사실을 확인해준다.</p> <p contents-hash="eafa0a6e963081c8bfe673c9747be95a632395774264e8b8d49993beda71a3c7" dmcf-pid="uX8mrkgRgb" dmcf-ptype="general">두 번째는 '선택적 차단'을 했기 때문이다. 효과가 좋은 게이트들을 분석해 보니 대부분의 정보를 차단하고 정말 중요한 것만 통과시키는 특징이 있었다. 가장 성능이 좋았던 게이트는 평균적으로 11.6%의 정보만 통과시키고 나머지 88.4%는 차단했다. 반대로 여러 헤드가 하나의 게이트를 공유하게 만들었더니 개방도가 27.1%로 올라갔고, 성능도 떨어졌다. 즉, 더 많이 차단할수록 오히려 성능이 좋아진 것이다. 이는 불필요한 정보를 과감하게 걸러내는 게 중요하다는 뜻이다.</p> <p contents-hash="c63b0427864be599467430429ef9f6c91cc47e308f272f0253977404775528e9" dmcf-pid="7Z6smEaecB" dmcf-ptype="general">더 흥미로운 점은 이 차단이 고정된 게 아니라 '상황에 따라 달라진다'는 것이다. AI가 지금 처리하고 있는 질문에 따라 어떤 과거 정보를 통과시킬지 막을지를 매번 다르게 결정한다. 같은 정보라도 질문에 따라 필요할 수도, 불필요할 수도 있기 때문이다.</p> <p contents-hash="edfbe8f273fb2c5eefa447121866e36c34f4333c7281838e84074b69efc083f9" dmcf-pid="z5POsDNdNq" dmcf-ptype="general"><strong>'첫 단어 집착증' 거의 사라지고 긴 컨텍스트 성능 크게 향상</strong></p> <p contents-hash="de3db6775776e2a211948063ae43992f25ff27060db5c0579bd21b3a8a6888a2" dmcf-pid="q1QIOwjJcz" dmcf-ptype="general">게이트의 가장 주목할 만한 효과는 '어텐션 싱크'를 대폭 줄인 것이다. 어텐션 싱크는 AI가 글이나 대화의 첫 부분, 특히 맨 첫 단어에 과도하게 집중하는 현상이다. 기존 모델은 주의력의 절반 가까이를 첫 단어에 쏟았고, 심한 경우 주의력 대부분이 첫 단어에만 쏠렸다. 이는 학생이 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같다. 하지만 게이트를 단 모델은 첫 단어에 쏟는 주의력이 극소량으로 줄어들었다.</p> <p contents-hash="0e747f69ef54c00ea99067f95fb9b9ea1fa8a38266d2ff5727b59225834eac5b" dmcf-pid="BtxCIrAiN7" dmcf-ptype="general">게이트는 또한 'AI 내부 값 폭증'이라는 문제도 해결했다. 이는 AI 내부에서 처리하는 숫자들이 비정상적으로 커지는 현상이다. 기존 모델은 초반 층에서 이런 큰 값들이 발생했고, 이 값들이 이후 과정 전체에 계속 영향을 미쳤다. 게이트를 단 모델은 이런 값 폭증 현상이 대폭 줄어들었다. 흥미롭게도 밸류 레이어에만 게이트를 달면 값 폭증은 줄지만 첫 단어 집착증은 여전했다. 이는 값 폭증이 반드시 첫 단어 집중을 일으키는 건 아님을 보여준다.</p> <p contents-hash="0c0e1129073d413b839e3711e92e85978fcff55dedb1906360dbf3468a6ef4ea" dmcf-pid="bFMhCmcnou" dmcf-ptype="general">첫 단어 집착증이 줄어들자 긴 글 이해 능력도 크게 좋아졌다. 연구팀은 AI가 한 번에 처리할 수 있는 글 길이를 기존보다 네 배 늘리는 실험을 했다. 기존 학습 길이 범위에서는 게이트 모델이 기존 모델보다 약간 나은 수준이었다. 하지만 그 범위를 넘어 두 배, 네 배로 늘어나자 차이가 극명해졌다. 가장 긴 글 길이에서 게이트 모델은 기존 모델보다 거의 두 배 좋은 성능을 보였다.</p> <p contents-hash="8a26ef4f8177e4ccfaba4c4260501a22e3cbd31277c8c62a759be615df29b69a" dmcf-pid="KeCBqU1ycU" dmcf-ptype="general"><strong>FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="1dca1429e981835cd7c8cac0fe707b1bd0ad54503c604bb045d805eb3a0077ef" dmcf-pid="9dhbButWjp" dmcf-ptype="general"><strong>Q. 게이트 어텐션이 뭔가요?</strong></p> <p contents-hash="930599916ecea3f110a832e789e6e75666c3dfdd0287b465eeecb1b11c91ad33" dmcf-pid="2JlKb7FYo0" dmcf-ptype="general">A. AI가 정보를 처리할 때 중간에 문지기 역할을 하는 장치를 추가한 기술입니다. 중요한 정보는 통과시키고 불필요한 정보는 차단해서 AI가 더 똑똑해지고 안정적으로 학습할 수 있게 만듭니다.</p> <p contents-hash="857074defbc5d8e5e7031b342cdcc1257bcc71fd8b5d979af546b10cf8724fac" dmcf-pid="ViS9Kz3Ga3" dmcf-ptype="general"><strong>Q. 어텐션 싱크가 뭐길래 문제인가요?</strong></p> <p contents-hash="8e622a4beea692ffe3a7fcf8cdca42d0f87e5ec2b1492e8a7334481be1d42baa" dmcf-pid="fnv29q0HNF" dmcf-ptype="general">A. AI가 글이나 대화의 첫 부분만 과도하게 집중하는 현상입니다. 마치 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같아서, 긴 글을 이해하는 능력이 떨어집니다. 게이트를 추가하면 이 문제가 사라집니다.</p> <p contents-hash="c3a9f5dec105425921999abec39c0d8274a7c213b8ff0d08dcfbf6a8206d7917" dmcf-pid="4LTV2BpXgt" dmcf-ptype="general"><strong>Q. 이 기술을 실제로 어떻게 쓰나요?</strong></p> <p contents-hash="4725012a0f269677153d6de5f2b8b88589ed1d7067809ee52ffd444630042cb2" dmcf-pid="8oyfVbUZj1" dmcf-ptype="general">A. AI 내부의 정보 처리 단계 중간에 간단한 게이트만 추가하면 됩니다. 알리바바 팀이 코드를 공개할 예정이고, 추가 비용도 거의 들지 않아서 누구나 쉽게 적용할 수 있습니다.</p> <p contents-hash="d172a6396852979fd10cd9694f0074100a457061a560afd1b37a48979d70373b" dmcf-pid="6gW4fKu5c5" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e9cd55779aab452f4dc53670ecbf43a9ca65858796a9e357e6a49a795b2bbece" dmcf-pid="PaY84971aZ" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기