
엔비디아(www.nvidia.co.kr CEO 젠슨 황)가 엔비디아 코스모스(NVIDIA Cosmos)를 발표했다. 이는 최첨단 생성형 월드 파운데이션 모델(World Foundation Model, WFM), 고급 토크나이저, 가드레일, 가속화된 비디오 처리 파이프라인으로 구성된 플랫폼으로 자율주행 차량(AV), 로봇과 같은 물리 AI 시스템의 개발을 촉진한다.
물리 AI 모델은 개발 비용이 많이 들고 방대한 양의 실제 데이터와 테스트가 필요하다. 코스모스 WFM은 개발자가 기존 모델을 훈련하고 평가할 수 있는 방대한 양의 사실적인 물리 기반 합성 데이터를 손쉽게 생성할 수 있는 방법을 제공한다. 아울러 개발자는 코스모스 WFM을 미세 조정해 맞춤형 모델을 구축할 수도 있다.
코스모스 모델은 로보틱스와 AV 커뮤니티의 작업을 가속화하기 위해 오픈 모델 라이선스로 제공될 예정이다. 개발자는 엔비디아 API 카탈로그에서 첫 번째 모델을 미리 보거나, 엔비디아 NGC 카탈로그 또는 허깅페이스(Hugging Face)에서 모델 제품군과 미세 조정 프레임워크를 다운로드할 수 있다.
1X, 애자일 로봇(Agile Robots), 어질리티(Agility), 피규어 AI(Figure AI), 포어텔릭스(Foretellix), 푸리에(Fourier), 갤봇(Galbot), 힐봇(Hilbot), 인트봇(IntBot), 뉴라 로보틱스(Neura Robotics), 스킬드 AI(Skild AI), 버추얼 인시전(Virtual Incision), 와비(Waabi), 샤오펑(XPENG) 등 선도적인 로보틱스, 자동차 기업들과 차량 공유 업체인 우버(Uber)가 코스모스를 최초로 도입한 기업들 중 하나이다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “로보틱스를 위한 챗GPT(ChatGPT)의 순간이 다가오고 있다. 거대 언어 모델(large language model, LLM)과 마찬가지로 WFM은 로봇과 AV 개발을 발전시키는 데 필수적이다. 그러나 모든 개발자가 자체적으로 훈련할 수 있는 전문 지식과 리소스를 갖추고 있는 것은 아니다. 우리는 물리 AI를 대중화하고 모든 개발자가 일반 로보틱스를 활용할 수 있도록 하기 위해 코스모스를 만들었다”고 말했다.
차세대 AI 물결을 가속화하는 오픈 WFM
엔비디아 코스모스 오픈 모델 제품군은 개발자가 AV 운행 비디오 녹화나 로봇이 창고를 탐색하는 등의 데이터 세트를 사용해 WFM을 목표 애플리케이션의 필요에 맞게 맞춤화할 수 있음을 의미한다.
코스모스 WFM은 물리 AI 연구와 개발을 위해 특별히 설계됐다. 또한, 텍스트, 이미지, 동영상과 같은 입력과 로봇 센서 또는 모션 데이터의 조합으로 물리 기반 비디오를 생성할 수 있다. 이 모델은 물리 기반 상호 작용, 객체 영속성, 창고나 공장과 같은 시뮬레이션 산업 환경과 다양한 도로 상황을 포함한 주행 환경의 고품질 생성을 위해 구축됐다.
CES 개막 기조연설에서 젠슨 황은 물리 AI 개발자가 코스모스 모델을 활용할 수 있는 방법을 다음과 같이 소개했다:
고급 월드 모델 개발 도구
물리 AI 모델을 구축하려면 페타바이트의 비디오 데이터와 해당 데이터를 처리, 큐레이션, 라벨링하기 위한 수만 시간의 컴퓨팅 시간이 필요하다. 데이터 큐레이션, 훈련과 모델 맞춤화에 드는 막대한 비용을 절감할 수 있도록 코스모스는 다음과 같은 기능을 제공한다:
세계 최대 규모의 물리 AI 산업에서 채택하는 코스모스
물리 AI 산업의 선구자들은 이미 코스모스 기술을 채택하고 있다.
AI와 휴머노이드 로봇 회사인 1X는 코스모스 토크나이저를 사용해 1X 월드 모델 챌린지(1X World Model Challenge) 데이터 세트를 출시했다. 샤오펑은 코스모스를 사용해 휴머노이드 로봇의 개발을 가속화할 예정이다. 아울러 힐봇과 스킬드 AI는 범용 로봇의 개발을 가속화하기 위해 코스모스를 사용하고 있다.
어질리티의 최고 기술 책임자인 프라스 벨라가푸디(Pras Velagapudi)는 “데이터 부족과 가변성은 로봇 환경에서 성공적인 학습을 위한 핵심 과제이다. 코스모스의 텍스트, 이미지, 비디오 기반 세계 생성 기능을 통해 다양한 작업에서 사실적인 시나리오를 생성하고 증강할 수 있다. 따라서 많은 비용이 드는 실제 데이터 수집 없이도 모델을 훈련하는 데 이를 사용할 수 있다”고 말했다.
교통 분야의 선도 기업들도 코스모스를 사용해 AV용 물리 AI를 구축하고 있다.
우버의 CEO 다라 코스로샤히(Dara Khosrowshahi)는 “생성형 AI는 모빌리티의 미래를 주도할 것이며, 이를 위해서는 풍부한 데이터와 강력한 컴퓨팅이 모두 필요하다. 엔비디아와의 협력을 통해 안전하고 확장 가능한 자율주행 솔루션을 업계에 제공할 수 있는 시기를 앞당길 수 있을 것이라 확신한다”고 말했다.
개방적이고 안전하며 책임감 있는 AI 개발
엔비디아 코스모스는 개인 정보 보호, 안전, 보안, 투명성, 원치 않는 편향 감소를 우선시하는 엔비디아의 신뢰할 수 있는 AI 원칙에 따라 개발됐다.
신뢰할 수 있는 AI는 개발자 커뮤니티 내에서 혁신을 촉진하고 사용자의 신뢰를 유지하는 데 필수적이다. 엔비디아는 백악관의 자발적인 AI 공약과 기타 글로벌 AI 안전 이니셔티브에 따라 안전하고 신뢰할 수 있는 AI를 제공하기 위해 노력하고 있다.
오픈 코스모스 플랫폼에는 유해한 텍스트와 이미지를 감소시키도록 설계된 가드레일이 포함되며, 텍스트 프롬프트의 정확성을 높이기 위한 도구가 있다. 엔비디아 API 카탈로그에서 코스모스 자동 회귀와 확산 모델로 생성된 비디오에는 AI가 생성한 콘텐츠를 식별하는 보이지 않는 워터마크가 포함돼 잘못된 정보와 잘못된 저작자 표시의 가능성을 줄여준다.
엔비디아는 개발자가 신뢰할 수 있는 AI 사례를 채택하고 애플리케이션에 대한 가드레일과 워터마킹 솔루션을 더욱 강화할 것을 권장한다.
이용 정보
코스모스 WFM은 현재 허깅페이스와 엔비디아 NGC 카탈로그에서 엔비디아의 오픈 모델 라이선스에 따라 사용할 수 있다. 코스모스 모델은 곧 완전히 최적화된 엔비디아 NIM 마이크로서비스로 제공될 예정이다.
개발자는 가속화된 비디오 처리를 위해 엔비디아 네모 큐레이터에 액세스하고 엔비디아 네모로 자체 월드 모델을 맞춤화할 수 있다. 엔비디아 DGX 클라우드는 이러한 모델을 빠르고 쉽게 배포할 수 있는 방법을 제공하며, 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼을 통해 엔터프라이즈 지원을 받을 수 있다.
아울러 엔비디아는 개발자가 의료, 금융 서비스, 제조 등의 엔터프라이즈 AI 사용 사례에 사용할 수 있는 새로운 엔비디아 라마 네모트론(Llama Nemotron) LLM과 엔비디아 코스모스 네모트론 비전 언어 모델도 발표했다.