

엔비디아(www.nvidia.co.kr )가 글로벌 최대 컴퓨터 그래픽 콘퍼런스인 시그라프(SIGGRAPH)에서 엔비디아 리서치(NVIDIA Research) 팀이 특별 강연을 통해 피지컬 AI 관련 최신 연구 성과를 발표했다고 밝혔다.
오늘날 로보틱스, 자율주행차, 스마트 공간의 핵심 기술인 피지컬 AI는 뉴럴 그래픽, 합성 데이터 생성, 물리 기반 시뮬레이션, 강화 학습, AI 추론의 조합을 활용한다. 이는 최근 서로 융합되고 있는 AI와 그래픽 분야를 지난 20년간 선도해 온 글로벌 팀인 엔비디아 리서치 팀의 집단적 전문성과 완벽히 부합한다.
엔비디아의 AI 연구 부사장인 산자 피들러(Sanja Fidler)는 “AI는 우리의 시뮬레이션 역량을 발전시키고 있으며, 우리의 시뮬레이션 역량은 AI 시스템을 발전시키고 있다. 두 분야 사이에는 진정하고 강력한 연결고리가 있으며, 이러한 조합은 흔하지 않다”고 말했다.
엔비디아는 시그라프에서 피지컬 AI를 위한 새로운 소프트웨어 라이브러리를 공개했다. 여기에는 대규모 월드 재구성을 위한 엔비디아 옴니버스 누렉 3D 가우시안(Omniverse NuRec 3D Gaussian) 스플래팅 라이브러리, 비전 AI를 위한 엔비디아 메트로폴리스(Metropolis) 플랫폼의 업데이트, 엔비디아 코스모스(Cosmos)와 엔비디아 네모트론(Nemotron) 추론 모델이 포함된다. 코스모스 리즌(Cosmos Reason)은 피지컬 AI를 위한 새로운 추론 비전 언어 모델(vision language model, VLM)로, 로봇과 비전 AI 에이전트가 사전 지식, 물리 이해, 상식을 활용해 인간처럼 추론할 수 있도록 한다.
이러한 혁신의 많은 부분은 엔비디아의 글로벌 연구 팀이 이룬 획기적인 성과에 기반하고 있다. 이들은 이번 시그라프에서 차세대 피지컬 AI 도구 개발에 기여하는 뉴럴 렌더링, 실시간 패스 트레이싱, 합성 데이터 생성, 강화 학습 분야의 진전을 담은 12건 이상의 논문을 발표했다.
피지컬 AI가 그래픽과 AI, 로보틱스를 통합하는 방법
피지컬 AI 개발은 물리적으로 정확한 고해상도의 3D 환경 구축에서부터 시작된다. 이러한 현실감 있는 가상 환경이 없다면 개발자들은 휴머노이드 로봇과 같은 고급 피지컬 AI 시스템을 시뮬레이션에서 훈련시킬 수 없다. 로봇이 가상훈련에서 습득한 기술이 현실 세계에 충분히 적용되지 않을 것이기 때문이다.
엔비디아의 연구 담당 부사장인 류밍유(Ming-Yu Liu)는 “피지컬 AI는 현실과 같은 가상 환경이 필요하다. 이는 로봇이 안전하게 시행착오를 통해 배울 수 있는 평행 우주와 같은 공간이다. 이 가상 세계를 구축하려면 실시간 렌더링, 컴퓨터 비전, 물리적 동작 시뮬레이션, 2D와 3D 생성형 AI, 그리고 AI 추론이 필요하다. 이는 엔비디아 리서치가 거의 20년간 전문성을 쌓아온 분야다”고 말했다.
2006년 연구 조직 설립 이래로 엔비디아가 이뤄온 레이 트레이싱과 실시간 컴퓨터 그래픽 분야에서의 혁신적인 연구 성과는 피지컬 AI 시뮬레이션이 요구하는 현실감을 구현하는 데 결정적인 역할을 한다. 이러한 렌더링 작업의 대부분은 AI 모델에 의해 구동되며, 이는 뉴럴 렌더링이라는 분야로 알려져 있다.
엔비디아의 그래픽 연구 부사장 겸 리얼-타임 그래픽 리서치((Real-Time Graphics Research) 그룹 책임자인 아론 르폰(Aaron Lefohn)은 “우리의 핵심 렌더링 연구는 고급 피지컬 AI 시스템을 훈련하는 데 사용되는 현실과 동일한 가상 세계의 창조를 촉진하며, 동시에 AI는 이미지에서 이러한 3D 세계를 생성하는 데 도움을 주고 있다. 우리는 이제 누구나 촬영할 수 있는 대중적인 미디어 형태인 사진과 영상을 빠르게 가상 3D 환경으로 재구성할 수 있는 단계에 이르렀다”고 말했다.
이 기초 연구는 3D를 2D로 변환하는 포워드 렌더링(forward rendering)과 2D를 3D로 변환하는 역 렌더링(inverse rendering)으로, 피들러의 스페이셜 인텔리전스 랩(Spatial Intelligence Lab)의 연구 성과를 포함한 물리적 동작 시뮬레이션 분야의 수년간의 연구와 기술 혁신으로 보완된다. 이 연구소는 최근 비디오 포즈 엔진(Video Pose Engine, ViPE)을 공개했다. 이는 다이내믹 비전 랩(Dynamic Vision Lab), 엔비디아 아이작(Isaac) 팀과 협력해 개발된 영상용 3D 기하학 주석 파이프라인이다. 이는 아마추어 녹화 영상, 대시캠 또는 영화 촬영 영상을 기반으로 카메라 움직임을 추정하고, 정밀한 깊이 맵을 생성한다.
생성형 AI 분야에서는, 엔비디아 리서치 팀 중 하나인 류밍유의 딥 이매지네이션 리서치((Deep Imagination) 그룹이 컴퓨터 비전, 트랜스포머, 비주얼 생성형 AI 모델을 선도하며 피지컬 AI 시스템이 월드의 미래 상태를 이해하고 예측할 수 있도록 하고 있다. 예를 들어, 차량이 적색 신호를 위반하거나 유리잔이 테이블 가장자리에 너무 가까이 있을 때 가능한 결과를 예측할 수 있다.
이러한 이니셔티브는 올해 초 소개된 엔비디아 코스모스 플랫폼의 기반을 마련했다. 이 플랫폼은 월드 파운데이션 모델(world foundation model, WFM), 사후 훈련 라이브러리, 가속화된 데이터 처리와 관리 파이프라인을 통해 피지컬 AI 개발을 가속화한다.