
엔비디아(www.nvidia.co.kr )가 게임, 3D 애플리케이션의 AI 기반 아바타 생성을 지원하는 오디오투페이스(Audio2Face) 기술을 오픈 소스로 공개한다고 밝혔다.
생성형 AI는 거대 언어 모델(large language model, LLM)과 음성 모델을 활용해 비디오 게임부터 고객 서비스에 이르기까지 자연스러운 대화를 지원하는 지능형 3D 아바타를 생성한다. 캐릭터가 사람처럼 보이기 위해서는 인간다운 표정이 필수적이다. 엔비디아(NVIDIA) 오디오투페이스는 생성형 AI 기반 실시간 얼굴 애니메이션과 립싱크를 제공해 사실적인 디지털 캐릭터 제작을 가속화한다.
오디오투페이스는 AI를 활용해 오디오 입력을 바탕으로 사실적인 얼굴 애니메이션을 생성한다. 음성의 음소, 억양 등 음향적 특징을 분석해 애니메이션 데이터 스트림을 만들고, 이를 캐릭터의 얼굴 표정에 매핑한다. 해당 데이터는 오프라인 환경에서 사전 제작된 콘텐츠에 활용 가능하며, 실시간 스트리밍으로 AI 기반 캐릭터의 역동적인 상호작용에도 사용할 수 있다. 이를 통해 정밀한 립싱크와 감정 표현이 가능하다.
▲음성 오디오와 감정적 트리거로 얼굴 애니메이션과 립싱크가 생성된다.
엔비디아는 오디오투페이스 모델과 소프트웨어 개발 키트(Software Development Kit, SDK)를 오픈 소스로 공개한다. 이를 통해 모든 게임, 3D 애플리케이션 개발자가 최첨단 애니메이션을 갖춘 고품질 캐릭터를 제작하고 배포할 수 있도록 지원한다. 또한 오디오투페이스 훈련 프레임워크도 오픈 소스로 공개돼 누구나 엔비디아의 기존 모델을 활용 사례에 맞게 미세 조정하고 맞춤화할 수 있다.
아래에서 오픈 소스 도구의 전체 목록을 확인할 수 있으며, 더 자세한 사항은 엔비디아 개발자(NVIDIA Developer) 페이지에서 알아볼 수 있다.
▲오디오투페이스 SDK, 플러그인
▲오디오투페이스 모델, 훈련 데이터
오픈 소스 기술은 개발자, 학생, 연구자들이 최첨단 코드를 학습하고 이를 기반으로 새로운 기술을 개발할 수 있도록 한다. 이를 통해 커뮤니티 내에서 새로운 기능이 추가되거나 다양한 활용 사례에 맞게 최적화가 이뤄지는 선순환이 만들어진다. 고품질 얼굴 애니메이션을 보다 쉽게 활용할 수 있게 된 커뮤니티는 향후 혁신적인 결과를 만들어낼 것으로 기대된다. 지금 바로 엔비디아 오디오투페이스 개발자 커뮤니티 디스코드(Discord)에 가입해 최신 작업을 공유할 수 있다.
업계를 선도하는 오디오투페이스 모델은 게임, 미디어, 엔터테인먼트, 고객 서비스 등 다양한 산업에 도입되고 있다. 컨바이(Convai), 코드마스터즈(Codemasters), GSC 게임 월드(GSC Game World), 인월드 AI(Inworld AI), 넷이즈(NetEase), 리얼루전(Reallusion), 퍼펙트월드 게임즈(Perfect World Games), 스트림랩스(Streamlabs), 유니큐 디지털 휴먼스(UneeQ Digital Humans) 등 많은 독립 소프트웨어 공급업체(Independent Software Vendors, ISV)와 게임 개발사가 오디오투페이스 기술을 자사 애플리케이션에 활용하고 있다.