하정우 인공지능(AI) 미래기획수석
정부 공공데이터 개방 확대 강조
AI 활용 자료 '표준화' 작업 논의
공공데이터 개방 AI산업 육성 핵심
李대통령 '모두의 AI' 구상에도 필수
관리 컨트롤타워, 공개 범위 등 쟁점
이재명 대통령이 20일 울산전시컨벤션센터에서 열린 '대한민국 AI 고속도로, 울산 AI데이터센터 출범식'에서 최태원 SK 회장과 대화하고 있다. 왕태석 선임기자
대통령실이 챗GPT와 같은 한국형 거대언어모델(LMM)에 공공데이터를 활용하기 위한 '표준화' 기준을 민간 업계와 학계의 요구에 맞춰 손보기로 했다. 각 부처별로 정부의 방대한 데이터베이스가 구축돼 있지만, 공개 범위가 제한적인 데다 인공지능(AI)이 학습할 수 있는 문서 형태가 부족해 활용에 한계가 있었다는 점을 개선하려는 취지다. 정부의 공공데이터를 민간에 오픈하는 작업은 이재명 대통령의 AI 대표 공약인 한국형 챗GPT 개발에도 첫걸음이 될 것이란 전망이 나온다.
4일 한국일보 취재를 종합하면 하정우 대통령실 인공지능(AI)미래기획수석은 최근 내부 회의에서 공공데이터 개방 확대 방안과 쟁점 사안 등을 보고한 것으로 전해졌다. 회의에선 각 부처에서 제공하는 공공데이터를 아래한글이 아니라 엑셀 등 인공지능이 학습할 수 있는 형태로 제공하는 이른바 '공공데이터 표준화'와 개인정보 비식별화 방안 등이 논의된 것으로 전해졌다. 대통령실 관계자는 "데이터 공개와 관련한 기술적 문제는 학계에서 계속 다뤄져 왔기에 기술상의 큰 문제는 되지 않을 것 같다"고 전했다.
공공데이터 개방 확대는 민관 협력을 통한 국내 AI산업 육성에 핵심적이다. AI의 신뢰성과 범용성이 확보되려면 최대한 많은 양질의 데이터를 학습해야 한다. 하지만 민간 부문에서는 개인정보 등 문제로 데이터 확보가 어려울 뿐만 아니라 확보한 데이터는 영업 비밀 등 문제가 있어 공개가 쉽지 않다. 그래서 업계나 학계에서는 정부가 수집한 데이터를 개방해달라고 요구해왔고, 정부 또한 공공데이터를 많이 개방하려고 시도해왔다.
하지만 여전히 업계와 학계가 활용하기에는 여전히 양과 질이 부족하다는 지적이 이어져왔다. 지난달 20일 울산 데이터센터 출범식에서도 "국가 차원의 데이터셋이 너무 부족하므로 국가가 AI 데이터 허브를 만들게 해달라"(정신아 카카오 대표)거나 "의료 같은 특수 분야의 데이터를 더욱 지원해달라"(서범석 루낫 대표) 등 이 대통령을 향한 제언이 쏟아졌다. 이 대통령이 추가로 공공데이터 개방 확대를 지시한 배경이다.
공공데이터 개방 확대는 단순히 국내 산업 육성에 국한되지도 않는다. 이 대통령은 한국형 챗GPT인 '모두의AI' 개발을 구상했다. 전 국민이 무료로 AI를 활용해 금융·건강·식량·재난 리스크를 분석하도록 하겠다는 것이었다. 이 대통령은 올해 5월 이와 관련해 "우리의 언어, 우리의 공공데이터를 갖고 AI를 개발해야 한다"고 말했다. 최근 국무회의에서는 '리걸테크'와 밀접한 연관이 있는 하급심 판결문 공개의 필요성도 언급했다.
공공데이터 개방 확대를 둘러싼 시스템 정비도 남은 쟁점이다. 당장 △어떤 공공데이터를 얼마나 공개할지 △어떤 부처가 공공데이터 관리를 총괄할 것인지 그 범위와 주체를 두고 논의가 본격화할 것으로 보인다. 정부에선 과학기술정보통신부 등이 관련 문제를 검토하는 가운데 국정기획위원회에서도 여러 방안을 고민 중인 것으로 전해졌다. 이미 국회에는 행정안전부 장관을 공공데이터 제공, 관리 문제를 총괄하는 컨트롤타워로 규정하는 공공데이터 활성화에 관한 법안(윤후덕 의원) 등이 발의돼 있다. 대통령실 관계자는 "그동안 비교적 통일된 안이 없이 운영돼왔던 터라 우리 행정 현실에 맞게 구체적인 방법을 정리하는 데는 시간이 좀 소요될 것 같다"고 전했다.
박준규 기자 ssangkkal@hankookilbo.com
Copyright © 한국일보. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.