로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
'대치 아빠' 박성웅 "17세 아들 국제학교 재학…외국 대학 준비 중"
N
[IT뉴스]
"모바일만 한다고?" 넷마블, 프랑스 스팀 1위 '대이변'
N
[IT뉴스]
애플 ‘닫힌 생태계’ 균열… 시리, 외부 AI 전면 개방 카드 꺼내나
N
[IT뉴스]
400만장 돌파 기대 ‘붉은사막’… 혹평 뒤집고 흥행 반전
N
[연예뉴스]
전소미, 한국·네덜란드·캐나다 '여권 3개' 보유…"갈 때마다 골라 써"
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스][유미's 픽] "연산보다 메모리"…구글 '터보퀀트' 등장에 엔비디아도 '긴장'
온카뱅크관리자
조회:
11
2026-03-27 12:17:30
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI 인프라 경쟁 축, 실행 효율 중심으로 재편…추론 단계 최적화 중요성 부각</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="GsaBtyoMCW"> <p contents-hash="fb70ae1f8210266117f845495a6ac885232e117963b9f7a683806aeb73f24093" dmcf-pid="HONbFWgRTy" dmcf-ptype="general">(지디넷코리아=장유미 기자)구글이 생성형 인공지능(AI) 운영의 핵심 병목으로 꼽혀온 '메모리 문제'를 소프트웨어 방식으로 풀어내는 기술을 공개하면서 AI 인프라 경쟁의 방향이 바뀌고 있다. 모델 규모 확대 중심이던 기존 경쟁 구도가 실행 효율과 메모리 최적화 중심으로 이동하고 있다는 분석이 나온다.</p> <p contents-hash="ee38b4ff08ecfc31f697aa4889dbdeedeffaf4ff2b493c77b338434611c08826" dmcf-pid="XIjK3YaeWT" dmcf-ptype="general">27일 업계에 따르면 최근 대규모언어모델(LLM) 운영에서는 연산 성능보다 메모리 처리 효율이 전체 성능을 좌우하는 사례가 늘고 있다. LLM은 답변 생성 과정에서 이전 정보를 반복적으로 참조하는 구조를 갖고 있어 데이터 접근 과정에서 발생하는 지연이 속도와 비용을 동시에 제한하는 요인으로 작용한다.</p> <p contents-hash="52aea07a115a822005d40e02a62dfb5eaf038d87ea3c6621de7fedb924300f03" dmcf-pid="ZCA90GNdTv" dmcf-ptype="general">현재 엔비디아 H100 등 최신 그래픽처리장치(GPU) 도입으로 연산 성능은 크게 향상됐지만, 메모리 대역폭과 데이터 이동 효율은 상대적으로 제한돼 있다. 실제 서비스 환경에서는 GPU 연산보다 메모리 접근이 병목으로 작용하는 경우가 적지 않다.</p> <figure class="figure_frm origin_fig" contents-hash="ea291beec236e213dcacca3abef392b53e211ee4b2ccf599ac712a616b79bb38" dmcf-pid="5KFDLQ1yCS" dmcf-ptype="figure"> <p class="link_figure"><img alt="(이미지 제작=챗GPT)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/27/ZDNetKorea/20260327121325489zypz.png" data-org-width="639" dmcf-mid="W7CR2UOclG" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/27/ZDNetKorea/20260327121325489zypz.png" width="658"></p> <figcaption class="txt_caption default_figure"> (이미지 제작=챗GPT) </figcaption> </figure> <p contents-hash="aedd12ba0a7eb61e3438bb7e3707a7b6d8abbf9f576660ca3ffafe1655814588" dmcf-pid="193woxtWTl" dmcf-ptype="general">이 같은 흐름 속에서 AI 추론 시스템을 구성하는 기술 구조에 대한 이해도 중요해지고 있다. AI 추론은 모델, 메모리 구조, 실행 소프트웨어, 하드웨어가 단계적으로 결합된 형태로 작동한다.</p> <p contents-hash="2d471b1acad75d026aa7338032d13da2f714cdec45ebdb0cf2eaeeda40f1c062" dmcf-pid="t20rgMFYyh" dmcf-ptype="general">우선 모델은 연산 과정에서 생성된 정보를 메모리에 저장하고 이를 반복적으로 참조한다. 이 과정에서 메모리 사용량이 급격히 증가하며 병목이 발생한다.</p> <p contents-hash="b68d0d5e98d559c307f1732de643e81f0e5a4b41c11751099525b1e5bb6c863b" dmcf-pid="FVpmaR3GCC" dmcf-ptype="general">이를 해결하기 위한 접근이 메모리 압축 기술로, 데이터 표현을 줄이는 양자화(Quantization) 방식과 데이터 구조를 효율적으로 인코딩하는 방식이 함께 발전하고 있다.</p> <p contents-hash="6d082bd16af261425600d05667d327d78aa2c100088a78831a4927a5b97c8fcf" dmcf-pid="3fUsNe0HTI" dmcf-ptype="general">이 가운데 구글이 지난 24일 공개한 터보퀀트(TurboQuant)는 데이터 표현 방식을 재구성하는 양자화 기반 접근으로, 메모리 사용량을 줄이면서도 정확도를 유지하는 데 초점을 맞춘 기술로 평가받는다.</p> <p contents-hash="f52acf05cbc7a65f24ca1f10751dc06ac8023ceb9c6f9e388107cfb56db67334" dmcf-pid="04uOjdpXyO" dmcf-ptype="general">엔비디아 역시 같은 문제를 두고 다른 접근을 시도하고 있다. 특히 최근에는 KV 캐시를 효율적으로 저장하기 위한 'KV 캐시 트랜스폼 코딩(KV Cache Transform Coding)' 기반 기술을 앞세우고 있다. 이는 데이터를 단순히 <span>제거하는 방식이 아닌, 정보 구조를 효율적으로 인코딩해 저장 효율을 높이는 접근에 가깝다. 다만 모델별 특성에 맞춘 보정 과정이 필요하다는 점에서 적용 방식에는 차이가 있다.</span></p> <p contents-hash="132622bd73fbb6dce7f905617c356121e34de3b075d375b70fd8dbe95d3fec79" dmcf-pid="p87IAJUZls" dmcf-ptype="general">두 기술 모두 메모리 압축을 목표로 하지만 접근 방식에는 차이가 있다. 터보퀀트가 양자화를 기반으로 정확도 손실을 최소화하는 데 초점을 둔 반면, KV 캐시 트랜스폼 코딩은 인코딩 효율을 높여 압축률을 끌어올리는 기술로 분석된다.</p> <p contents-hash="15d5e9936bc9ad6cfd75a873fb5e807f3904291b4db1dc5ef25941fef2146a55" dmcf-pid="U6zCciu5vm" dmcf-ptype="general">두 기술은 기존 메모리 최적화 기술의 연장선에선 의미 있는 진전으로 평가된다. KV 캐시의 정밀도를 낮추는 양자화 기법은 GPTQ, AWQ 등 오픈소스 진영과 스타트업을 중심으로 확산돼 왔고, 중요도가 낮은 토큰을 선택적으로 제거하는 방식이나 슬라이딩 윈도우 기반 메모리 관리 기법도 일부 모델에 적용돼 왔다. 또 메모리 접근을 줄이는 어텐션 최적화 기술은 데이터 전송 횟수를 줄여 속도를 높이는 플래시어텐션(FlashAttention) 등으로 발전하며 주요 AI 기업과 연구 커뮤니티에서 활용되고 있다.</p> <p contents-hash="b21ef1090bd32417e89566903034c5e893b9e3f7f009f2b08f724e3dd2413708" dmcf-pid="uq5cJ8XSSr" dmcf-ptype="general">업계 관계자는 "양자화나 토큰 프루닝 같은 기법은 이미 널리 쓰이고 있지만, 실제 서비스에서는 정확도나 안정성 문제 때문에 적용 범위가 제한적인 경우가 많다"며 "KV 캐시 자체를 압축 대상으로 삼는 접근은 구현 난이도는 높지만, 제대로 적용되면 체감 성능을 크게 바꿀 수 있는 영역"이라고 밝혔다.</p> <figure class="figure_frm origin_fig" contents-hash="a2421caf5048c1761db71ee4c578af18ba732901b41ead1ee89b6c0658c04c26" dmcf-pid="7B1ki6Zvyw" dmcf-ptype="figure"> <p class="link_figure"><img alt="엔비디아의 최신형 루빈 GPU (사진=엔비디아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/27/ZDNetKorea/20260327121325748avgs.png" data-org-width="639" dmcf-mid="YFUsNe0HSY" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/27/ZDNetKorea/20260327121325748avgs.png" width="658"></p> <figcaption class="txt_caption default_figure"> 엔비디아의 최신형 루빈 GPU (사진=엔비디아) </figcaption> </figure> <p contents-hash="6e7b6a06793061b373594ef6ae54fd7b9d2fe05348cab6df6a811f8cec05645f" dmcf-pid="zbtEnP5TTD" dmcf-ptype="general">메모리 압축과 더불어 모델 실행 방식 자체를 개선하려는 소프트웨어 경쟁도 확대되고 있다. vLLM, 텐서RT-LLM(TensorRT-LLM)을 비롯해 라마(llama.cpp) 등 다양한 추론 엔진들이 등장하며 요청 처리 방식과 메모리 관리 효율을 높이는 방향으로 발전하고 있다.</p> <p contents-hash="70c46a453c8898091869f31c1ab088ec89052784872205ffda5897c5b08198dc" dmcf-pid="qKFDLQ1yvE" dmcf-ptype="general">특히 vLLM은 미국 UC버클리 연구진이 주도해 개발한 오픈소스 추론 엔진으로, 요청을 효율적으로 묶어 처리하고 페이지드어텐션(PagedAttention) 구조를 통해 메모리를 동적으로 관리하는 방식으로 처리 효율을 높인다. 엔비디아가 개발한 텐서RT-LLM(TensorRT-LLM) 역시 GPU 연산을 최적화해 추론 속도를 개선하는 소프트웨어로, 데이터센터 환경에서 널리 활용되고 있다.</p> <p contents-hash="06acdc6a0446d5ed6bb54ad4e256d8ed9d2efeeefd3d77f77dcc5c8cbe23478e" dmcf-pid="B93woxtWSk" dmcf-ptype="general">추론 엔진은 모델 자체를 변경하지 않고도 실행 방식만으로 성능을 개선할 수 있다. 동일한 모델이라도 어떤 실행 소프트웨어를 사용하느냐에 따라 처리 속도와 비용이 달라지는 구조다.</p> <p contents-hash="2838be94709e577188c8953fa8c300a7a8538ce352a4e7c277343ac973ce040f" dmcf-pid="b20rgMFYlc" dmcf-ptype="general">업계 관계자는 "같은 모델이라도 vLLM이나 텐서RT 같은 추론 엔진 설정에 따라 처리량 차이가 크게 난다"며 "실제 서비스에서는 모델보다 실행 스택이 성능을 좌우하는 경우도 적지 않다"고 설명했다.</p> <p contents-hash="8be865e51eeaadba2e4e0b625e1eb7585eed16cb409233b4e4076e61e9dacd22" dmcf-pid="KVpmaR3GlA" dmcf-ptype="general">메모리 압축 기술과 추론 엔진이 결합된 뒤 최종 연산은 GPU에서 수행된다. 특히 최신 GPU 환경에서는 연산 성능보다 메모리 활용 효율이 전체 성능을 좌우하는 경우가 많아지면서 소프트웨어 기반 최적화의 중요성이 더욱 커지고 있다.</p> <p contents-hash="248a740e5a3770217f1f3f2fffc09cf7783dcafee2d6c111caf41a4234d62cb7" dmcf-pid="9fUsNe0Hyj" dmcf-ptype="general">이와 함께 AI 경쟁의 방향도 변화하고 있다. 그동안 생성형 AI는 더 많은 데이터를 학습하고 더 큰 모델을 구축하는 데 집중해 왔지만, 최근에는 동일한 모델을 얼마나 빠르고 비용 효율적으로 운영할 수 있는지가 핵심 경쟁력으로 부상하고 있다.</p> <p contents-hash="04feee9c4cd62d3d74c8588f3899b307c13f18ab2af85d0e400d0ed7ff30d208" dmcf-pid="24uOjdpXWN" dmcf-ptype="general">업계 관계자는 "대규모 서비스에서는 모델 성능보다 추론 효율이 비용 구조를 좌우하는 경우가 더 많다"며 "메모리 구조와 추론 엔진을 함께 최적화하지 않으면 GPU를 늘려도 수익성을 맞추기 어려운 단계에 들어섰다"고 말했다.</p> <p contents-hash="17a78c905cf8a44bdda47facd8af0d7cb76b89eac51ab19267b9d5e0bddee7e6" dmcf-pid="V4uOjdpXSa" dmcf-ptype="general">장유미 기자(sweet@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기