윙배너
윙배너
윙배너

한 장의 사진으로 초실사 AI 아바타 구현

자율주행차부터 키오스크까지…디지털 휴먼 상호작용 기술 상용화 기대

한 장의 사진으로 초실사 AI 아바타 구현 - 산업종합저널 기타
ETRI 연구진이 '실사 인물 발화 영상 생성 프레임워크 기술'에 대해 논의하는 모습

한국전자통신연구원(ETRI)이 단 한 장의 인물 사진을 바탕으로 실제 사람처럼 자연스럽게 말하는 초실사형 AI 아바타 기술을 구현했다. 이 기술은 자율주행 시대를 대비한 인간-기계 간 인터페이스로서 새로운 상호작용 방식을 제시하고 있으며, 키오스크, 금융, 방송 등 다양한 분야에 적용 가능성이 제기되고 있다.

ETRI가 개발한 AI 아바타는 기존 음성 기반 비서 시스템과 달리, 정밀한 입 모양과 표정, 피부 주름까지 세밀하게 표현할 수 있다. 운전자와 AI가 직접 대화하거나 보행자와 소통하는 등, 차량 내 직관적인 커뮤니케이션 환경을 구현할 수 있도록 설계됐다.

핵심 기술은 발화에 관여하는 입술과 턱 등의 움직임을 선택적으로 학습하는 독자 알고리즘에 있다. 이 방식은 비정형 정보까지 무작위로 학습하는 기존 생성형 AI 모델과 달리, 표현 정확도를 높이면서도 처리 효율성을 확보할 수 있도록 구성됐다.

ETRI는 해당 기술이 국제 주요 학술대회(CVPR, AAAI 등)에서 발표된 유사 기술들보다 영상 합성 품질과 입술 동기화 성능 측면에서 높은 수준을 기록했다고 설명했다. 한 장의 사진만으로도 자연스럽게 말을 하는 얼굴 영상을 만들어내는 이 기술은, 인공지능 기반 디지털 휴먼 산업 확산을 견인할 수 있는 실용적 도구로 평가된다.

한 장의 사진으로 초실사 AI 아바타 구현 - 산업종합저널 기타
(기술개념도) 영상 창작자(크리에이터)는 목표 인물의 사진 한 장 만으로 그 사람이 실제로 말하는 것 같은 합성 영상을 만들 수 있을 뿐만 아니라 특정 음성, 자세, 문장 입력에 맞춰 합성 인물을 제어가능하다.

응용 범위도 넓다. 키오스크, 은행 창구, 뉴스 진행, 광고 모델 등에 접목해 실제 인력과 유사한 사용자 경험을 제공할 수 있으며, 주문이나 상담 업무 등 반복적 상호작용을 자동화하는 데에도 활용될 수 있다.

ETRI 모빌리티UX연구실은 현재 운전자와 보행자의 감정, 피로도, 집중 상태 등을 분석하는 AI 기반 인터페이스 기술도 함께 개발 중이다. 윤대섭 연구실장은 “기술 발전 속도에 따라 고령자나 정보 소외계층이 배제되지 않도록, 이번 아바타 기술이 모두에게 친숙한 인터페이스로 자리 잡길 바란다”고 말했다.

연구책임자인 최대웅 선임연구원은 “실제 사람처럼 말하고 움직이는 아바타를 구현하는 생성형 AI 기술을 지속적으로 고도화하고 있으며, 향후에는 일부 인력의 업무를 대체할 수 있을 만큼 상호작용 정밀도를 높이는 것이 목표”라고 밝혔다.

해당 기술은 현재 ETRI 기술이전 포털에 ‘실사 인물 발화 영상 생성 프레임워크 기술’로 등록돼 있으며, 연구진은 다양한 산업 분야에서의 이전과 상용화 전략도 함께 추진하고 있다. 이 연구는 『초실사 영상 생성 AI 제어 프레임워크 요소기술 개발』 과제의 일환으로, ‘차세대주역 신진연구사업’ 지원을 받아 수행됐다.


0 / 1000


많이 본 뉴스




산업전시회 일정


미리가보는 전시회