‘BIGS’ 기법을 사용해 다양한 시점에서 손-물체 상호작용을 복원한 결과를 나타낸 모식도. 울산과학기술원(UNIST) 제공
두 손으로 낯선 물체를 조작하는 장면을 3차원(3D)으로 복원하는 인공지능(AI) 기술이 개발됐다. 양손과 의료기구가 뒤엉킨 모의 수술 장면도 정확하게 증강현실(AR) 화면에 재현할 수 있게 됐다.
백승렬 울산과학기술원(UNIST) 인공지능대학원 교수 연구팀은 단일 적녹청(RGB) 영상만으로 양손과 처음 보는 기구의 복잡한 상호작용을 실시간 3차원으로 시각화할 수 있는 인공지능 모델 ‘BIGS’를 개발했다고 9일 밝혔다.
AI는 카메라로 촬영된 2차원(2D) 데이터만 입력되기 때문에 손과 물체의 실제 위치나 입체적인 형태를 파악하려면 이를 3차원으로 다시 복원하는 과정이 필요하다. 기존 기술은 한 손만 인식하거나 사전에 스캔된 물체만 대응할 수 있어 증강현실이나 가상현실(VR)기술에서 현실감 있는 상호작용 장면을 재현하는 데 한계가 있다.
연구팀이 개발한 BIGS는 손이 가려지거나 일부만 보이는 상황에서도 전체 형상을 안정적으로 예측할 수 있다. 처음 보는 물체도 학습된 시각 정보를 통해 보이지 않는 부분까지 자연스럽게 그려낸다. 깊이 센서나 여러 각도의 카메라 없이 단 한 대의 카메라로 찍은 단일 RGB 영상만으로 이 같은 복원이 가능해 현장에서 쉽게 적용할 수 있다.
BIGS는 3차원 ‘가우시안 스플래팅 방식’을 기반으로 한다. 가우시안 스플래팅은 사물의 형상을 퍼지는 점 구름 형태로 표현한다. 픽셀 단위로 경계가 뚜렷한 포인트 클라우드 방식과 달리 손과 물체가 만나는 접촉면 등을 더 자연스럽게 복원할 수 있다.
손이 겹치거나 일부가 가려진 상황에서는 전체 형상을 추정하기 어렵지만 모든 손을 하나의 기준 손 구조에 맞춰 정렬하는 방식을 이용해 문제를 해결했다. 사전 학습된 확산모델을 활용한 점수 증류 방식(SDS)까지 적용해 영상에 보이지 않는 물체의 뒷면까지 복원했다.
국제 데이터셋을 활용한 실험 결과 BIGS는 손의 자세, 물체의 형상, 두 손과 물체 간의 접촉 정보 복원은 물론 화면을 재현하는 렌더링 품질에서도 기존 기술보다 우수한 성능을 보였다.
연구를 이끈 백승렬 교수는 “이번 연구는 향후 가상현실(VR), 증강현실(AR), 로봇 제어, 원격 수술 시뮬레이션 등 다양한 분야에서 실시간 상호작용 복원 기술로 활용될 것으로 기대된다”고 말했다. 연구 결과는 11일부터 5일간 미국에서 열리는 컴퓨터 비전 분야 학술대회 ‘컴퓨터 비전 및 패턴 인식 학회(CVPR) 2025’에서 발표된다.
[박정연 기자 hesse@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.