엔비디아, 자비스(Jarvis) 대화형 AI 프레임워크 출시
2021년 04월 15일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

283658ce191205e196c879f247ba7776_1618430489_3231.jpg


엔비디아(www.nvidia.co.kr CEO 젠슨 황)가 엔비디아 자비스(NVIDIA Jarvis) 프레임워크의 출시를 발표했다. 자비스 프레임워크는 개발자들이 모든 산업과 영역에 쉽게 적용할 수 있는 대화형 AI 서비스를 구축할 수 있도록 사전 훈련된 최첨단 딥러닝 모델과 소프트웨어 툴을 제공한다.

 

전화 통화, 화상회의, 스트리밍 방송 비디오 콘텐츠가 매일 수십억 시간에 달하는 가운데, 엔비디아 자비스는 매우 정확한 자동 음성인식은 물론 초인적 언어 이해력, 여러 언어에 대한 실시간 번역, 표현력 있는 대화형 AI 에이전트를 생성하는 새로운 텍스트 음성 변환 기능을 제공한다.

 

GPU 가속을 활용해 엔드-투-엔드 음성 파이프라인을 100밀리초 이내에 실행할 수 있다. 이는 사람 눈이 깜빡하는 것보다도 빠르게 청취, 이해, 응답 생성이 가능하다는 의미로, 클라우드, 데이터센터 또는 엣지에 구축되어 수백만 명의 사용자로의 즉시 확장이 가능하다.

 

젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO는 "대화형 AI는 여러 면에서 궁극적인 AI"라며, "음성 인식, 언어 이해, 음성 합성 분야의 딥러닝 혁신이 클라우드 서비스를 가능케 했다. 엔비디아 자비스는 어디에서나 AI 서비스를 호스팅할 수 있도록 클라우드에서 이 최첨단 대화형 AI를 제공한다"고 말했다.

 

엔비디아 자비스는 이전에는 불가능했던 새로운 종류의 언어 기반 애플리케이션을 가능하게 하여 인간과 기계 간의 상호작용을 개선할 것으로 기대된다. 예를 들면, 디지털 간호사가 24시간 환자를 모니터링하여 의료진의 과중한 업무를 줄여주고, 온라인 비서가 소비자가 원하는 것을 이해해 최적의 제품을 추천하며, 실시간 번역으로 글로벌 업무 협업을 개선하고, 시청자들은 모국어로 생방송 콘텐츠를 즐길 수 있게 될 것이다.

 

자비스는 세계 최고 수준의 정확도를 달성하기 위해 10억 페이지 이상의 텍스트, 6만 시간의 음성 데이터, 다양한 언어, 억양, 환경 및 용어로 수백만 시간 동안 훈련된 모델을 사용해 제작되었다. 개발자는 최초로 엔비디아 타오(NVIDIA TAO)를 통해 모든 작업, 산업 및 시스템에서 이러한 모델을 쉽게 훈련, 조정 및 최적화할 수 있다.

 

개발자들은 엔비디아 NGC 카탈로그에서 자비스 사전 훈련 모델을 선택하고 트랜스퍼 러닝 툴킷(Transfer Learning Toolkit)으로 자체 데이터를 이용해 미세 조정하고, 실시간 음성 서비스의 처리량과 최소 지연 시간에 맞게 최적화한 다음, 몇 줄의 코드만 사용하여 모델을 쉽게 배포할 수 있으므로 심층적인 AI 전문 지식을 필요로 하지 않는다.

 

여러 업계의 선도기업들이 조기 채택해 활용 중

지난 5월 자비스의 조기 액세스 프로그램이 시작된 이후, 수천 개의 회사들이 참여 의사를 밝혔다. 초기 사용자 중에는 미국 통신 대기업인 티모바일(T-Mobile)도 있는데, 이 회사는 실시간 통찰력과 추천을 제공하기 위해 자연어 처리를 이용한 머신러닝 제품을 AI가 더욱 강화시켜줄 것으로 기대하고 있다.

 

티모바일 제품 및 기술 부문 부사장인 매튜 데이비스(Matthew Davis)는 "티모바일 데이터를 이용해 미세 조정된 엔비디아 자비스 서비스를 통해 티모바일은 실시간으로 고객 문제를 해결할 수 있는 제품을 구축하고 있다. 티모바일은 여러 자동 음성 인식 솔루션을 평가한 결과, 자비스가 매우 짧은 대기 시간에 양질의 모델을 제공해 고객이 만족할 만한 경험을 가능하게 한다는 것을 확인했다”고 말했다.

 

엔비디아는 또한 스타트업, 연구원 및 개발자들의 음성 지원 애플리케이션, 서비스 및 장치 훈련을 위한 오픈소스 음성 데이터 세트인 모질라 커먼 보이스(Mozilla Common Voice)와 협력하고 있다. 세계 최대의 다국어 공용 도메인 음성 데이터 세트인 커먼 보이스는 60개 언어로 기부된 음성 데이터가 총 9,000시간이 넘는다. 엔비디아는 자비스를 사용해 데이터 세트로 사전 훈련된 모델을 개발하여 커뮤니티에 무료로 제공하고 있다.

 

마크 서먼(Mark Surman) 모질라 전무 이사는 "우리는 기계에 실제 인간의 고유한 언어, 억양, 말투로 말하는 방법을 가르치기 위해 커먼 보이스를 시작했다. 엔비디아와 모질라는 음성 기술을 대중화해 인터넷을 구성하는 다양한 사람과 음성을 반영할 수 있게 한다는 공통의 비전을 가지고 있다"고 말했다.

 

엔비디아의 대화형 AI 툴은 4만 5천 건 이상의 다운로드를 기록했다. 이는 수백 개 파트너사의 기술과 결합될 수 있으며 선도적인 소프트웨어 라이브러리를 지원하여 전 세계 개발자들이 혁신적이고 직관적인 대화형 AI 애플리케이션을 구축할 수 있게 한다.

 

유튜버이자 PythonProgramming.net의 설립자인 해리슨 킨슬리(Harrison Kinsley)는 "자비스는 다양한 종류의 사전 훈련된 모델을 보유하고 있어 자동 음성 인식부터 자연어 처리, 텍스트 음성 변환까지 대화형 AI를 위한 진정한 엔드-투-엔드 파이프라인이다. 모든 모델이 놀랍도록 빠르고 잘 최적화되어 있으며, 개발자는 대화형 AI 작업에 적용되는 많은 예제를 통해 API를 손쉽게 사용할 수 있다”고 말했다.

그래픽 / 영상
많이 본 뉴스