로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
백악관 “트럼프-시진핑, 북한 비핵화 재확인”…압박 강화는 미지수
N
[연예뉴스]
남현종 아나, 6천만원 전세 사기 당하고 직접 뉴스 보도‥슬픈 표정 포착(사당귀)
N
[IT뉴스]
[사이언스샷] 눈 안의 시금치, 광합성으로 안구건조증 치료
N
[IT뉴스]
“화면 두 개의 특별함에 완성도 높여” 에이수스 젠북 듀오(UX8407) [리뷰]
N
[IT뉴스]
AI가 흔든 37년 ‘HWP’… 잠자던 공공문서 데이터화 “이제 시작”
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]AI가 흔든 37년 ‘HWP’… 잠자던 공공문서 데이터화 “이제 시작”
온카뱅크관리자
조회:
11
2026-05-18 06:07:28
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">HWPX 의무화에 문서 구조화 기술 주목</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QtmW4tpXeL"> <p contents-hash="d5e69b382f17394f896dd637539c03f5a17bc6a0474ff32756d7af3244cb474c" dmcf-pid="xFsY8FUZRn" dmcf-ptype="general">공공문서는 그동안 국내 인공지능(AI) 산업이 충분히 활용하지 못한 한국어 데이터 자산으로 꼽혔다. 행정기관에 쌓인 문서 상당수가 아래아한글(HWP)과 PDF 형태로 남아 있어 AI 학습과 검색·분석에 바로 쓰기 어려웠기 때문이다. 연구 현장에서는 HWP 문서를 일일이 열어 필요한 내용을 복사해 붙여넣거나, PDF로 변환한 뒤 다시 데이터를 정리하는 비효율도 반복됐다.</p> <p contents-hash="ca66b19a377f39f6d0606cf00a09d301066d89c31c7f961e684a678fd2f19fc8" dmcf-pid="yCiE3CvmLi" dmcf-ptype="general">이런 상황은 앞으로 개선될 여지가 크다. 정부의 HWPX 의무화, 글로벌 AI 서비스의 HWP 지원, 오픈소스 파서(Parser)·편집기 등장, 국내 문서 엔진 기업들의 문서 구조화 기술 경쟁이 맞물리면서 공공문서 데이터화 논의가 속도를 낼 것으로 기대된다.</p> <div contents-hash="9865780dee16d81b2ad2ad3017f83f2480de7c90140ec3d1eb36d3c4d5adbaf2" dmcf-pid="WhnD0hTseJ" dmcf-ptype="general"> 핵심은 챗GPT 같은 AI 서비스에서 HWP 파일을 열 수 있느냐가 아니다. 문제는 수십 년간 공공 영역에 쌓인 HWP 문서를 얼마나 정확히 해석하고, 표·차트·이미지 같은 문서 객체를 손실 없이 정리해 AI 학습과 검색·분석에 쓸 수 있는 데이터로 바꾸느냐다. </div> <figure class="figure_frm origin_fig" contents-hash="1feb6b5a838267a6059e0936f598c3058653435c88d4c47d7f62e425e085d2b7" data-idxno="443238" data-type="photo" dmcf-pid="YlLwplyOMd" dmcf-ptype="figure"> <p class="link_figure"><img alt="대다수 HWP로 생산된 공공문서를 AI 학습과 ·분석에 쓸 수 있는 데이터로 변환하는 것이 본격화될 전망이다. / 챗GPT 생성" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060037391ojpn.png" data-org-width="1280" dmcf-mid="4mvv2ZFYdN" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060037391ojpn.png" width="658"></p> <figcaption class="txt_caption default_figure"> 대다수 HWP로 생산된 공공문서를 AI 학습과 ·분석에 쓸 수 있는 데이터로 변환하는 것이 본격화될 전망이다. / 챗GPT 생성 </figcaption> </figure> <p contents-hash="0b23a4089407082150f4e65604bcf8b16fbbf6525d0e3e7e9c694196082af09a" dmcf-pid="GSorUSWILe" dmcf-ptype="general"><strong>AI 연구자 불만 키운 HWP, 공공 AI 전환의 병목으로</strong></p> <p contents-hash="ccab157ae959888a1cb47e12d77ea1a6bdd42eace6248002f9b7a8ddad131b83" dmcf-pid="HvgmuvYCiR" dmcf-ptype="general">이 대통령은 2025년 취임 직후 국정 업무보고에서 "HWP는 AI가 읽기 어렵다"며 개선을 지시했다. 그 배경에는 공공 데이터 활용을 둘러싼 일부 연구자들의 오래된 불만이 깔려 있다. 본지가 지난해 8월 보도한 기획시리즈 '공공DB의 과제'에서도 다뤘듯이 공공기관에는 행정, 법령, 정책, 민원, 연구 관련 한국어 문서가 방대하게 쌓여 있다. 하지만 상당수가 HWP 파일로 남아 있어 AI 연구자와 개발자들이 바로 활용하기 어려웠다.</p> <p contents-hash="bef6eae33c791e3ae1e6c62e2417e998d8c4eb8a68d034d6f4afe87d247c4f8a" dmcf-pid="XTas7TGhdM" dmcf-ptype="general">HWP 문서를 하나씩 열어 내용을 복사하거나, PDF로 저장한 뒤 다시 텍스트를 추출하는 작업도 적지 않았다. 이 과정에서 표 안의 숫자, 문단 계층, 주석, 서식 정보가 깨지면 데이터 품질도 함께 떨어진다. AI가 문서를 읽는다고 해도 원문 구조가 무너지면 검색 결과와 답변 신뢰도 역시 흔들릴 수밖에 없다.</p> <p contents-hash="b4ae842ec4db5289b38f2839927e5f4f1dce1a2f7201b3b3363d5254ee34fdd3" dmcf-pid="ZyNOzyHlex" dmcf-ptype="general">다만 이런 문제가 HWP만의 숙제인 것은 아니다. PDF도 화면에 보이는 문서를 그대로 보존하는 데 초점이 맞춰진 포맷이다. 사람이 보기에는 편하지만, AI가 제목, 문단, 표, 이미지 구조를 정확히 뽑아내기는 쉽지 않다. 이 때문에 PDF를 AI 검색·분석에 활용하려는 기업들은 별도 파서와 문서 구조 분석 기술을 개발해 왔다. HWP는 글로벌 생태계와의 접점이 상대적으로 부족했던 것이 문제였다.</p> <p contents-hash="086ea02e0a0b41e41dfecf28e324538a3fbb53b5abb0af1d08c13906d7575124" dmcf-pid="5WjIqWXSLQ" dmcf-ptype="general">한글과컴퓨터(한컴)가 HWP 포맷을 무조건적으로 고수한 것은 아니었다. 한컴은 2010년 HWP의 후속 개방형 포맷으로 HWPX를 도입했다. 하지만 공공 행정 현장에는 여전히 레거시 문서가 방대하게 남아 있다. 2025년 10월 위성곤 더불어민주당 의원실이 공개한 '공공분야 AI 활용 현황' 설문조사에 따르면, 전국 행정기관 종사자 1만4208명 중 91.1%가 보고서·계획서 등 행정문서를 주로 HWP나 이미지·스캔 PDF 등 AI가 인식하기 어려운 형식으로 작성한다고 답했다.</p> <p contents-hash="e1fad0a24ff133402ed7fc565649fa226f117926a94cd08b4eea664fc1a89a03" dmcf-pid="1YACBYZvJP" dmcf-ptype="general"><strong>HWPX 의무화…쌓여 있는 문서들은 여전히 문제</strong></p> <p contents-hash="24152a3064de372697b3646649502a5f7673f6fcd1d3857ceae221ac282169da" dmcf-pid="tGchbG5TJ6" dmcf-ptype="general">정부는 지난 4월 24일 공공부문 AI 전환을 위해 HWPX 기반 개방형 문서 포맷 적용을 의무화한다고 발표했다. 국가AI전략위원회와 행정안전부, 문화체육관광부는 공공 문서가 오가는 핵심 채널에서 AI 인식 효율이 낮은 HWP 파일 첨부를 제한하기로 했다. 이에 온나라시스템은 5월 18일부터 지방정부까지 개방형 파일 전환을 확대 적용하고, 공직자통합메일은 10월부터 HWP 첨부 제한을 시행한다. 행안부는 기존 HWP 파일도 재작성하거나 수정 저장할 때 HWPX로 변환 저장하도록 유도할 방침이다.</p> <p contents-hash="b997f48326b7fb5d3e9a4780df1adc515942f1ccc1e2018454efde5725eb2067" dmcf-pid="FHklKH1yi8" dmcf-ptype="general">HWPX는 XML(Extensible Markup Language) 기반 개방형 포맷이다. 바이너리(Binary·2진) 포맷의 HWP보다 텍스트와 표, 문단 구조 등 문서 내부 정보를 기계가 읽기 쉬운 형태로 다룰 수 있다. 공공 영역에 축적된 한국어 문서를 AI 검색·분석과 RAG(검색증강생성)용 데이터로 정비하기 쉬워지는 것이다. </p> <p contents-hash="25a7d4dd11c14565d04c2b86ffc6f0bb1fb1b01559bd26c7e7c5bcb7e2ba74f0" dmcf-pid="3XES9XtWi4" dmcf-ptype="general">다만 현 시점의 HWPX 의무화가 모든 문제에 대한 해결책이 되지는 못한다. 새로 생산되는 문서의 기계 판독성은 높아지지만, 과거에 쌓인 HWP 문서는 여전히 별도 파서와 변환 도구가 필요하기 때문이다. 특히 방대한 공공문서에는 개인정보, 비공개 행정정보, 보안등급 문서도 섞여 있다. 이들 문서를 향후 활성화될 AI 관련 사업과 업무에 활용하려면, 포맷 전환뿐 아니라 데이터 정제와 품질 관리, 접근 통제까지 함께 설계해야 할 필요가 있다.</p> <p contents-hash="18821abfaba175f49ac4bf1b886704ee39148eddc11a0da7e84517987101dc2b" dmcf-pid="0ZDv2ZFYMf" dmcf-ptype="general"><strong>한국만의 포맷 HWP, 변화의 시기 맞아</strong></p> <p contents-hash="708ae734e48322c08bd8cf8ea8e200f5c3f2a87279e9be312fd4e849b6631b4f" dmcf-pid="p5wTV53GeV" dmcf-ptype="general">한국만의 문서 포맷으로 여겨지던 HWP는 최근 의미 있는 변화를 맞이하고 있다. 먼저 글로벌 AI 서비스에서 공식적으로 HWP 파일을 읽을 수 있도록 지원하기 시작했다. 구글 제미나이는 지난해부터 HWP·HWPX 지원을 시작했으며 오픈AI도 올해 4월 17일 챗GPT에 HWP·HWPX 파일 지원을 추가했다. 이로써 사용자들은 별도 변환 없이 HWP 문서를 업로드해 내용을 확인하고, 자연어 질의응답으로 필요한 정보를 찾거나 요약할 수 있다.</p> <p contents-hash="111a05a1413f6115a6ebfadd2f80e93f31db9b0fb53a7cf6ffc66a9271bbcdfd" dmcf-pid="UrMNZrIkR2" dmcf-ptype="general">다만 제미나이·챗GPT의 HWP 지원과 공공·기업 업무 시스템의 대량 문서 데이터화는 다른 문제다. 챗GPT가 개별 파일을 읽는 것과 수십 년간 쌓인 공공문서를 업무 시스템 안에서 검색·분석 가능한 데이터로 정비하는 일은 난도가 다르기 때문이다. 공공기관이나 금융사가 HWP 문서를 AI 검색에 연결하려면 온프레미스 구축, 폐쇄망 처리, 접근권한 관리, 개인정보 필터링, 보안성 검토가 필요하다. AI 서비스의 HWP 지원은 사용자 접점의 변화이지, 현장 도입 장벽이 모두 사라졌다는 뜻은 아니다.</p> <div contents-hash="704d310a1541c51e70ff9e94622f1bc9973de340f804c865abc681c5af675041" dmcf-pid="umRj5mCEi9" dmcf-ptype="general"> 또 다른 변화는 개발자 커뮤니티 쪽에서다. 개발자 애드워드 김(edwardkim)은 러스트(Rust)·웹어셈블리(WebAssembly) 기반 오픈소스 HWP 파서 'rhwp'를 깃허브를 통해 공개했다. HWP 5.0 바이너리와 HWPX를 모두 파싱하며 브라우저에서 실행된다. MIT 라이선스로 상업적 활용도 허용했다. 이를 기반으로 윈도·맥·리눅스를 모두 지원하는 오픈소스 크로스플랫폼 편집기 'HOP'도 등장했다. </div> <figure class="figure_frm origin_fig" contents-hash="a879d1c8333414df1955f5be475d5210bf7303786b15c1b8e787140057230253" data-idxno="443239" data-type="photo" dmcf-pid="7seA1shDnK" dmcf-ptype="figure"> <p class="link_figure"><img alt="rhwp 제품정보 화면 / rhwp 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060038711znjg.png" data-org-width="547" dmcf-mid="8xKMhojJia" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060038711znjg.png" width="658"></p> <figcaption class="txt_caption default_figure"> rhwp 제품정보 화면 / rhwp 갈무리 </figcaption> </figure> <p contents-hash="c8ec878f2ed42f522c26d5774688549db854ff5d65842d1fa326ef66a7d8ecae" dmcf-pid="zOdctOlwJb" dmcf-ptype="general">이같은 오픈소스 HWP 파서·편집기의 등장은 의미 있는 신호다. 그동안 HWP는 국내 공공·기업 문서 현장에서 널리 쓰였지만, 개발자들이 자유롭게 분석하고 활용할 수 있는 도구는 제한적이었다. HWP 5.0 바이너리와 HWPX를 모두 다루는 오픈소스 파서가 나오면 웹 기반 뷰어, 변환기, 검색 도구, 문서 분석 서비스 등으로 확장될 여지가 생긴다. 특정 상용 소프트웨어에 의존하지 않고도 HWP 문서를 읽고 처리하려는 개발자 실험이 늘어날 수 있다는 점에서다.</p> <p contents-hash="b2df910c55c07c65c3a10fbc4e114b035679f5a1015fe5d0f882498deb85694c" dmcf-pid="qIJkFISrJB" dmcf-ptype="general">다만 오픈소스 파서 등장이 곧바로 시장 재편을 뜻하지는 않는다. HWP 문서는 작성 시기와 버전, 암호화 여부, 수식, 표, 주석, 서식, 글꼴, 임베디드 객체 등에 따라 예외가 많다. 단순 텍스트 추출은 가능해도 공공·기업 업무에 쓰려면 표 구조와 문단 계층, 첨부 객체, 서식 정보를 안정적으로 복원해야 한다. 대량 문서를 처리할 때의 성능과 오류 대응, 보안 취약점 관리, 장기 유지보수 체계도 검증 대상이다. 공공·기업 시장에서는 오픈소스의 가능성만큼이나 호환성, 안정성, 보안성, 책임 있는 기술 지원 여부가 중요하다.</p> <p contents-hash="923f2757577b9a0a6f5994700e91efe7ecce142b6963ff4e457981e711784282" dmcf-pid="BCiE3CvmLq" dmcf-ptype="general">한컴은 이같은 오픈소스 편집기의 등장을 악재로는 보지 않는 분위기다. 파일을 읽는 기술의 희소성은 낮아질 수 있지만, 공공·기업 시장에서 필요한 것은 단순 열람 기능을 넘어선다. 수십 년간 쌓인 HWP 문서를 대량으로 해석하고, 표와 문단 구조를 보존하며, 보안 요건에 맞춰 AI 검색·분석 업무에 연결하는 기술과 운영 역량이 필요하다.</p> <div contents-hash="962014fcd1325daf9ba79846f6e8554627e5a35314dbdaadea9802d2790b457d" dmcf-pid="bhnD0hTsJz" dmcf-ptype="general"> 오히려 HWP·HWPX 문서가 더 많은 AI 서비스와 개발자 도구에서 다뤄질수록 문서 데이터화 수요가 커질 수 있다. 한컴은 HWP·HWPX 원천 포맷과 오피스 생태계, 공공 고객 기반을 갖고 있다. 기존 오피스 판매에 머물지 않고 데이터 로더, 문서 소프트웨어개발키트(SDK), 기업용 AI 문서 솔루션으로 사업 영역을 넓힐 여지가 생기는 셈이다. </div> <figure class="figure_frm origin_fig" contents-hash="42ca64edc30a99dd1b373f2cbd3e120f00a57090c6ef600e0d52962362a90da4" data-idxno="443240" data-type="photo" dmcf-pid="KlLwplyOe7" dmcf-ptype="figure"> <p class="link_figure"><img alt="크로스플랫폼 HWP 편집기 HOP 소개 / HOP 홈페이지 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060039994jyrj.jpg" data-org-width="1259" dmcf-mid="6Eu4renQRg" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060039994jyrj.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 크로스플랫폼 HWP 편집기 HOP 소개 / HOP 홈페이지 갈무리 </figcaption> </figure> <p contents-hash="3ba5b1841dea9e43c49181e5c4d81d6445bf0230720e29b01dcf4b6685f165ed" dmcf-pid="9SorUSWIeu" dmcf-ptype="general"><strong>문서 엔진·파서 기업들, 공공문서 데이터화 시장 겨냥</strong></p> <p contents-hash="bd18bb9fb2dc493f7cd95c588b22e35462945724abe81a0886b738b740b93201" dmcf-pid="2vgmuvYCRU" dmcf-ptype="general">HWPX 의무화는 한컴에 기회지만, 한컴만의 시장으로 보기도 어렵다. HWPX가 개방형 포맷인 만큼 외부 기업도 문서 구조 분석과 데이터 변환 시장에 진입하기 쉬운 구조이기 때문이다. 경쟁은 문서 데이터 파이프라인을 누가 더 정교하게 구축하느냐가 좌우할 전망이다.</p> <p contents-hash="28a6354133ba21ad8e765662a53e022d84dd8bb91846013a35df9cac60793f60" dmcf-pid="VTas7TGhep" dmcf-ptype="general">사이냅소프트는 문서 구조 분석 시장을 겨냥해 적극적인 행보를 보이고 있다. '사이냅 도큐애널라이저'는 HWP, HWPX, MS 오피스, PDF, 이미지 등 다양한 문서에서 표와 이미지 같은 시각 정보, 복잡한 문서 구조 정보를 분석해 마크다운(Markdown), JSON, XML 형식의 정형 데이터로 변환하는 솔루션이다. 지난달 TTA GS인증 1등급을 획득하며 공공시장 대응에도 속도를 냈다.</p> <p contents-hash="366a83af669c2c0e01764a57d8f0eb38697f8b333e65ea073e5f1c6057acb768" dmcf-pid="fyNOzyHld0" dmcf-ptype="general">폴라리스오피스도 자체 문서 엔진을 앞세워 문서 데이터화 시장을 겨냥한다. '폴라리스 AI 데이터인사이트(Polaris AI DataInsight)'는 워드, 엑셀, 파워포인트, HWP, PDF, TXT 등 다양한 문서에서 텍스트와 이미지, 표, 차트 등 주요 객체를 추출해 구조화 데이터로 바꾸는 솔루션이다. 회사는 이를 RAG 등 AI 모델이 활용할 수 있는 데이터 정비 기술로 내세우고 있다.</p> <div contents-hash="51502b609877c977e567652574e462e1ec5b876e1bc5a0d7ec527b1a2f569719" dmcf-pid="4WjIqWXSM3" dmcf-ptype="general"> 이 밖에도 광학문자인식(OCR), 검색엔진, RAG 솔루션, 클라우드, 시스템통합(SI) 등 다양한 분야의 기업들이 공공 문서 AI 전환 시장에서 기회를 보고 있다. 공공기관 입장에서는 단순 포맷 변환보다 보안, 권한 관리, 문서 품질, 운영 안정성을 함께 봐야 하기 때문이다. </div> <figure class="figure_frm origin_fig" contents-hash="b2b1294ef8892a95a1a8cd65e501caaebbadfb711c7af7330c9675e95d342f18" data-idxno="443241" data-type="photo" dmcf-pid="8YACBYZvMF" dmcf-ptype="figure"> <p class="link_figure"><img alt="사이냅 도큐애널라이저 개념도 / 사이냅소프트 홈페이지 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060041232ubvq.jpg" data-org-width="1166" dmcf-mid="PawTV53Geo" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/18/552810-SDi8XcZ/20260518060041232ubvq.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 사이냅 도큐애널라이저 개념도 / 사이냅소프트 홈페이지 갈무리 </figcaption> </figure> <p contents-hash="b9736089609afba4317d79bce503241e73aa722761fdf48e22400ec1946e6826" dmcf-pid="6VX7gV6bJt" dmcf-ptype="general">이런 가운데 한컴은 HWP·HWPX 포맷과 오피스 생태계를 기반으로 AI 문서 데이터 사업을 키우고 있다. '한컴 데이터 로더'는 HWP·HWPX 문서를 RAG 등 AI 활용에 적합한 구조화 데이터(JSON)로 변환하는 솔루션이다. 여기에 한컴은 PDF 구조화 기술에서도 성과를 냈다. '오픈데이터로더 PDF v2.0'이 올해 3월 깃허브 전체 언어 통합 트렌딩 1위를 기록하며 개발자 생태계에서 주목받았다. 이같은 기술력을 바탕으로 한컴은 삼성SDS와 함께 AI국회(국회 빅데이터 플랫폼) 사업도 수주했다. 실적 기반도 받쳐준다. 한컴은 2026년 1분기 별도 기준 매출 465억원, 영업이익 176억원을 기록해 분기 사상 최대 실적을 냈다. 올해 연간 별도 기준 매출 2100억원 돌파도 목표로 제시했다.</p> <p contents-hash="2901798b74459b76a3e9e9df4c2cbe62a5270455e6ce6033dc43e20a8d6b6709" dmcf-pid="PfZzafPKi1" dmcf-ptype="general">김연수 한컴 대표는 "2026년 1분기 실적은 한컴이 전통적인 소프트웨어 기업을 넘어 AI 기술 기업으로 재평가받고 있음을 명확한 숫자로 보여주는 결과"라며 "현재의 안정적인 수익 구조를 바탕으로 깃허브 등에서 확인된 기술 생태계의 가능성을 발판 삼아 차세대 비전인 '에이전틱 OS' 개발 및 글로벌 시장 공략에 전사적 역량을 집중하겠다"고 밝혔다.</p> <p contents-hash="478930d35adc599ae1b8f3202be934b0b7090a6d7b398948273a422bd755d375" dmcf-pid="Q45qN4Q9L5" dmcf-ptype="general"><strong>공공문서 데이터화, 이제 시작이다</strong></p> <p contents-hash="79cd2a8d222aa9bb2f87681174774b0073186fea61080bf569fd90769f110e47" dmcf-pid="x81Bj8x2JZ" dmcf-ptype="general">HWPX 의무화는 앞으로 생산되는 공공문서의 기계 판독성을 높이는 조치다. 챗GPT의 HWP 지원은 사용자 접점을 넓혔고, 오픈소스 파서와 국내 문서 엔진 기업들의 움직임은 기술 선택지를 늘리고 있다. 하지만 공공 AI 전환의 더 큰 숙제는 수십 년간 쌓인 기존 HWP 문서다. 앞으로는 기존 HWP 문서를 얼마나 정확히 해석하고, 복잡한 문서 객체를 얼마나 손실 없이 구조화하며, 이를 공공부문 AI 학습·검색·분석 업무에 연결하느냐가 관건이 될 전망이다.</p> <p contents-hash="5f7613d477239408c513e81323beea1ea8ad5dee78c2b81d74ccedd1560553e8" dmcf-pid="ylLwplyOdX" dmcf-ptype="general">HWP 문서 데이터화의 난도는 단순 텍스트 추출보다 높다. 표는 행과 열의 관계가 살아 있어야 하고, 병합 셀과 주석, 반복 머리글도 구분돼야 한다. 차트는 원본 객체로 남아 있을 때와 이미지로 삽입됐을 때 처리 방식이 달라진다. 이미지, 수식, 각주, 머리말, 꼬리말, 메타데이터도 문맥에 맞게 분리해야 한다.</p> <p contents-hash="98a48e19f0e3ce88aeedc79ed738b1e9b37d9bbbbe212eef82cf26a4bb000c68" dmcf-pid="WSorUSWIMH" dmcf-ptype="general">이 구조가 무너지면 AI 검색 결과도 흔들린다. RAG에서 잘못 쪼개진 문서는 엉뚱한 답변으로 이어질 수 있다. 공공문서가 AI 학습과 검색·분석에 제대로 쓰이지 못한 이유도 여기에 있다. 파일은 쌓여 있었지만, AI가 신뢰할 만한 데이터로 정리하는 작업은 충분히 이뤄지지 못했다.</p> <p contents-hash="2c7d149d6c4a918e282604ed05b35b8a75a02c55ab29b6ab73e4ae1e79d793eb" dmcf-pid="YvgmuvYCLG" dmcf-ptype="general">결국 공공문서 데이터화의 성패는 HWPX 의무화 이후의 작업에 달려 있다. 수십 년간 쌓인 HWP 문서를 정확히 읽고, 문서 구조를 온전히 되살려 AI가 신뢰할 수 있는 데이터로 바꾸는 일이 공공부문 AI 전환의 본격적인 출발점이 될 전망이다.</p> <p contents-hash="03fd4bb5e0d7ccc174fa8d4d60679b79258790b0e74452beb9543598e6b8e76c" dmcf-pid="GTas7TGhMY" dmcf-ptype="general">정종길 기자<br>jk2@chosunbiz.com</p> </section> </div> <p class="" data-translation="true">Copyright © IT조선. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기