로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
컴투스홀딩스, 서울경제진흥원과 손잡고 우수 게임 발굴
N
[연예뉴스]
박보영, 차태현 미담 공개…“‘과속스캔들’ 때 지갑 선물”
N
[IT뉴스]
[AI는 지금] 美 커서, 中 모델로 코딩 AI 개발 인정…여파는?
N
[IT뉴스]
코아스템켐온, 관리종목 리스크 해소…뉴로나타 알, 허가 대기
N
[연예뉴스]
“웃음 검증 끝”... 연극 ‘미세스 마캠’, 9.8점 신화 안고 앵콜 귀환
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]PDF에서 표·글·이미지까지 쉽게 뽑는다…한컴 로더, 깃허브 트렌딩 상위권
온카뱅크관리자
조회:
16
2026-03-23 09:17:32
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">문서 구조 분석해<br>Markdown·JSON·HTML로 변환<br>누적 스타 8300개 돌파<br>개발자 커뮤니티서 관심 확대</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="u389pux2EN"> <p contents-hash="d37bbc736089d417377ec0a6d37e93f8f41237d773430c5a6fceee2e4d3d4684" dmcf-pid="7y73YHb0wa" dmcf-ptype="general"> [이데일리 김현아 기자] 한글과컴퓨터(030520)의 오픈소스 PDF 추출 도구 ‘오픈데이터로더 PDF’가 글로벌 개발자 커뮤니티에서 주목받고 있다. 복잡한 PDF 문서에서 글, 표, 이미지, 제목 구조를 분해해 인공지능(AI)이 활용하기 쉬운 데이터 형태로 바꿔주는 기능을 앞세워 깃허브에서 빠르게 관심을 끌고 있다. 저장소 기준 누적 스타(즐거찾기)는 8.3k, 포크(사용)는 561개 수준이다. </p> <p contents-hash="a526f06e3b618de1ce081973a5dbda2e71865359c3469b01411b813eba65f138" dmcf-pid="zWz0GXKpEg" dmcf-ptype="general">이 도구의 핵심은 단순한 텍스트 복사 수준을 넘어선다는 점이다. 오픈데이터로더 PDF는 PDF를 Markdown, JSON, HTML 형식으로 추출하고, 각 요소의 위치 정보까지 함께 제공한다.</p> <figure class="figure_frm origin_fig" contents-hash="cf78ae036a013e0ca8f74c05b88cf05cfa239a6cf726cdd627814dc2c0e49219" dmcf-pid="qYqpHZ9Uro" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/23/Edaily/20260323091204326rhrv.jpg" data-org-width="670" dmcf-mid="0HK75tfzrc" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/23/Edaily/20260323091204326rhrv.jpg" width="658"></p> </figure> <div contents-hash="f4e3140dd4f2fab465f679c30b156fd015095a77c8a746f6844f6564dcdac92b" dmcf-pid="BGBUX52umL" dmcf-ptype="general"> 설명서 첫장(README)에는 AI 활용이 가능한 형태로 PDF를 추출·변환하는 도구(PDF Parser for AI-ready data)라고 소개돼 있으며, 문서의 읽기 순서와 표, 제목, 이미지 영역까지 구조적으로 분석하는 기능을 내세우고 있다. </div> <p contents-hash="227c9fe7203e2feb00d0eca57afe1a9020625be043e9cc4cf0652cc1e653e968" dmcf-pid="bHbuZ1V7wn" dmcf-ptype="general">쉽게 말해 사람이 PDF를 보며 “이 부분은 제목, 이 부분은 표, 이 이미지는 오른쪽 아래”라고 구분하는 작업을 소프트웨어가 대신 수행하는 셈이다. 이 때문에 보고서, 계약서, 논문, 매뉴얼 같은 PDF를 검색 시스템이나 생성형 검색증강생성(AI, RAG)용 데이터로 전처리할 때 활용도가 높다는 평가가 나온다. 공식 설명에도 구조화된 Markdown 출력, 좌표가 포함된 JSON, LangChain 연동 지원이 명시돼 있다. </p> <p contents-hash="d430d8f2391569688b893f834c20875297dfad07678ea087e9f3b5b0d00cb6f7" dmcf-pid="KXK75tfzOi" dmcf-ptype="general">기능도 일반적인 PDF 추출기를 넘어선다. 저장소 설명에 따르면 올바른 읽기 순서 추출, 표 추출, 제목 계층 인식, 리스트 인식, 이미지 좌표 추출을 지원한다. 하이브리드 모드에서는 OCR, 복잡한 표 추출, 수식 추출, 차트·이미지 설명 생성도 가능하다. 또 외부 서버 전송 없이 로컬 환경에서 구동되는 방식도 제공한다. </p> <p contents-hash="f9a050c546303a9abaa24b6161c6af04b95824a760c63ccdd4161dea51b9f1e3" dmcf-pid="9Z9z1F4qDJ" dmcf-ptype="general">깃허브 반응도 빠르다. 저장소 페이지에는 이 프로젝트가 Apache 2.0 라이선스를 적용했고, Python·Node.js·Java 환경에서 사용할 수 있다고 안내돼 있다. 깃허브 Java 트렌딩 페이지에서도 해당 저장소가 상위권에 올라 있다. 현재 시점에서 공식 화면으로 확인되는 사실은 Java 트렌딩 노출과 저장소의 누적 스타·포크 수다. </p> <p contents-hash="4ef8e7437fe0d4ddcd87ac6df086662ebb5cda1d5a4f6bcd805a853a6cf56e28" dmcf-pid="252qt38Brd" dmcf-ptype="general">업계에서는 이런 도구가 PDF를 단순 보관 문서가 아니라 ‘탐색 가능한 데이터’로 바꾸는 역할을 할 수 있다는 점에 주목하고 있다. 특히 기업들이 사내 문서, 기술 문서, 연구 자료를 AI에 연결하려는 수요가 커지는 상황에서, 문서 구조를 최대한 유지한 채 데이터를 추출하는 기술의 중요성도 함께 커지고 있다. 오픈데이터로더 PDF가 개발자 커뮤니티에서 관심을 얻는 배경도 여기에 있다는 해석이다. </p> <p contents-hash="a43072afe0530598283dbfbe798dadf86f598e24a96c2454e1ba2b159f5d34aa" dmcf-pid="V1VBF06bwe" dmcf-ptype="general">김연수 한컴 대표는 “문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 검증받았다”며 “전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다”고 밝혔다.</p> <p contents-hash="39eb6415abdef29a2d533b6a8fff9e185b6d1b8fd23fc14a3e21f520e54db8c2" dmcf-pid="ftfb3pPKIR" dmcf-ptype="general">김현아 (chaos@edaily.co.kr) </p> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기