엔비디아 코스모스 3, 비전 추론·멀티모달 생성 통합해 피지컬 AI 행동 예측 구현
2026년 06월 03일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기
6e88702016635beb12ade712c29bfcff_1780422301_4398.jpg
 

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(NVIDIA)가 아시아 최대 ICT 전시회 컴퓨텍스(COMPUTEX) 2026을 맞이해 개최한 엔비디아 GTC 타이베(NVIDIA GTC Taipei)에서 새로운 오픈 월드 파운데이션 모델인 ‘엔비디아 코스모스 3(Cosmos 3)’를 전격 공개했다. 이번에 발표된 코스모스 3는 로봇, 자율주행차, 스마트 공간 등 피지컬 AI(Physical AI) 시스템이 자율적으로 작동하는 데 필수적인 미래 예측 및 시뮬레이션 한계를 극복한 솔루션이다. 텍스트, 비디오, 이미지, 음향, 행동 전반의 비전 추론과 멀티모달 생성을 단일 모델 내에서 결합함으로써 개발자가 물리적 컨텍스트를 갖춘 고도의 세계 데이터를 생성하도록 지원한다.


현실 세계 예측 데이터 확보의 한계와 시뮬레이션 시장 전망

로봇이나 자율주행차가 실제 도로 및 물류창고에서 마주하는 돌발 상황(예: 주차된 차량 사이에서 갑자기 튀어나오는 보행자, 처음 보는 물체 배치 등)은 현실에서 직접 포착하고 재현하기가 매우 까다롭다. 이러한 예외적인 '롱테일(Long-tail) 시나리오'를 수집하는 작업은 위험성이 높고 비용이 많이 들 뿐만 아니라 대규모 반복 학습이 거의 불가능에 가깝다. 업계 전문가들은 피지컬 AI 시장이 한 단계 진화하기 위해서는 단순한 시각적 감지를 넘어 물리 법칙에 부합하는 합성 비디오와 행동 데이터를 가상 환경에서 무한히 생성해내는 아키텍처 확보가 게임 체인저가 될 것으로 내다보고 있다.


트랜스포머 혼합 아키텍처와 네이티브 액션 생성의 기술적 특징

코스모스 3는 이 같은 문제를 해결하기 위해 '트랜스포머 혼합(Mixture-of-Transformers)' 아키텍처를 도입했다. 모델 내부의 추론 블록이 먼저 주변 장면의 상황과 공간 컨텍스트를 정밀하게 해석하면, 생성 블록이 이를 이어받아 물리 법칙을 위배하지 않는 정교한 합성 비디오와 로봇 작업 데이터를 만들어내는 구조다.


특히 코스모스 3는 장면과 움직임의 연관 관계를 이해하는 것을 넘어, 관절 각도, 그리퍼 위치, 궤적 좌표 등 로봇이 물리적 작업을 수행하는 데 필요한 수치적 행동 데이터를 직접 생성하는 '네이티브 액션 생성' 기능을 갖춘 옴니모델(Omnimodel)이라는 점에서 기술적 차별성을 지닌다. 개발자는 카메라 배치나 특정 하드웨어 형태에 맞춰 모델을 자유롭게 파인튜닝할 수 있다.


글로벌 임바디드 AI 생태계 확장 및 오픈 소스 배포 미래 비전

코스모스 3는 스마트 시티와 산업용 솔루션 전반으로 생태계를 확장하고 있다. 글로벌 로봇 기업 애자일 로봇(Agile Robots)은 휴머노이드 토르 3(Thor 3) 등의 정책 개발을 위해 코스모스 3 기반의 행동 조건부 로봇 데이터를 대규모로 생성 중이다. 또한 링커 비전(Linker Vision)은 이 모델의 비전 언어 추론 기능을 실시간 카메라 스트림 분석에 도입해 복잡한 공간 컨텍스트 이해와 근본 원인 분석 워크플로우를 고도화하고 있다. 엔비디아 기어(GEAR) 팀 역시 이를 활용해 게임과 실제 환경을 아우르는 비디오 액션 모델 연구에 박차를 가하는 중이다.


엔비디아는 개발자들이 기술에 쉽게 접근할 수 있도록 build.nvidia.com 을 통해 체험 환경을 제공하고, 허깅페이스(Hugging Face)와 깃허브(GitHub)에 모델 가중치 및 코드를 오픈 소스로 공개했다. 리눅스 재단의 오픈MDW(OpenMDW) 1.1 라이선스를 기반으로 제공되어 데이터 세트 수정 및 재배포 과정이 대폭 간소화되었으며, 엔비디아 NIM 마이크로서비스를 통해 효율적인 현업 배포가 가능하다. 엔비디아는 이 같은 전방위적 개방형 생태계 조성을 통해 시각 인지 기반의 차세대 피지컬 AI 인프라 시장 표준을 지속적으로 리드해 나갈 방침이다.

핫 뉴스
많이 본 뉴스