마이크로소프트 애저, 엔비디아 A100 GPU 탑재된 최초의 인스턴스 공개

2020년 08월 25일

엔비디아(www.nvidia.co.kr , CEO 젠슨 황)는 마이크로소프트 애저(Microsoft Azure)가 엔비디아 A100 GPU가 탑재된 최초의 인스턴스를 공개했다고 밝혔다.

마이크로소프트는 자사의 연례 개발자 행사인 빌드 2020(Build 2020)에서 대규모 AI(AI at Scale)에 대한 비전을 소개했다. 해당 이니셔티브는 최첨단 AI 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델을 골자로 한다. 대규모 모델의 장점은 AI 슈퍼컴퓨팅을 이용해 방대한 양의 데이터를 한 번만 훈련하면 훨씬 작은 데이터셋과 리소스를 가진 다양한 작업 및 도메인을 정밀 조정할 수 있다는 점이다. 모델이 더 많은 파라미터를 가질수록 데이터의 어려운 뉘앙스를 잘 파악할 수 있다. 이는 170억개의 파라미터를 가진 마이크로소프트의 언어 모델로, 처음 본 질문에 답하거나 문서를 요약할 수 있을 정도의 언어 이해력을 가진 Turing-NLG에 의해 이미 입증됐다. 이 같은 자연어 모델들은 1년 전의 최신 모델보다 그 규모가 훨씬 크며, 과거의 이미지 중심 모델보다 수십 배 큰 규모로 빙(Bing), 워드(Word), 아웃룩(Outlook), 다이나믹스(Dynamics)에서 다양한 작업을 수행하고 있다.

이러한 규모의 훈련 모델은 머신 내부와 전체에 걸쳐 고대역폭 네트워크로 상호 연결된 전문 AI 가속기가 갖춰진 수백 대의 머신으로 구성된 대규모 클러스터를 필요로 한다. 마이크로소프트는 제품 전반에 걸쳐 새로운 자연어 생성 능력과 이해력을 구현하고, 안전한 AI를 개발한다는 오픈AI(OpenAI)의 미션을 지원하기 위해 이러한 클러스터를 애저에 구축했다.

마이크로소프트의 최신 클러스터는 AI 슈퍼컴퓨터라고 불릴 만큼 많은 통합된 컴퓨팅 성능을 제공한다. 또한, 오픈AI를 위해 구축된 클러스터는 현재까지 공개된 전세계 상위 5대 슈퍼컴퓨터 성능에 도달했다. 지난 5월, 오픈AI는 해당 슈퍼컴퓨터를 사용해 1,750억개의 파라미터를 가진 GP5-3 모델과 함께, 이 모델이 시를 쓰거나 번역을 하는 등 특별히 훈련되지 않은 광범위한 작업을 어떻게 지원하는지 선보이기도 했다.

마이크로소프트가 대규모 컴퓨팅 클러스터, 선도적인 네트워크 설계, 그리고 애저 머신러닝(Azure Machine Learning), 오닉스 런타임(ONNX Runtime), 기타 애저 AI 서비스를 포함한 소프트웨어 스택에서 이를 관리하기 위해 수행한 작업들은 대규모 AI 전략과 직결된다. 이러한 과정을 통해 창출되는 혁신은 궁극적으로 애저가 규모에 상관없이 모든 고객의 AI 요구사항을 보다 효과적으로 충족시키도록 하고 있다. 일례로, NDv2 VM 시리즈를 통해 애저는 엔비디아 멜라녹스 인피니밴드(NVIDIA Mellanox InfiniBand) 네트워킹으로 연결된 엔비디아 V100 텐서 코어(Tensor Core) GPU를 탑재한 가상머신(VM) 클러스터를 제공하는 최초이자 유일한 퍼블릭 클라우드가 됐다.

그래픽 / 영상