마이크로소프트 애저, 엔비디아 A100 GPU 기반 인스턴스 공식 출시
2021년 06월 04일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

2d40b3e3c27e8c7e0becd28fe87e0ba7_1622752947_8805.jpg


엔비디아(www.nvidia.co.kr CEO 젠슨 황)는 마이크로소프트 애저(Microsoft Azure)가 ND A100 v4 VM(가상머신) 시리즈의 공식 출시를 알렸다고 밝혔다. ND A100 v4 VM 시리즈는 슈퍼컴퓨터급 AI 및 고성능컴퓨팅(HPC) 워크로드를 위한 마이크로소프트의 가장 강력한 VM으로, 엔비디아 A100 텐서 코어(Tensor Core) GPU와 엔비디아 HDR 인피니밴드(InfiniBand)로 구동된다. 

 

엔비디아는 애저와의 협업을 통해 스케일 업(scale-up) 및 스케일 아웃(scale-out) 형태의 AI 플랫폼을 새롭게 설계했다. 이 플랫폼은 혁신적인 엔비디아 암페어(Ampere) 아키텍처 기반 GPU, 그리고 엔비디아 네트워킹 기술과 애저의 고성능 인터커넥트 및 VM 패브릭을 결합하여 누구나 손쉽게 사용 가능한 AI 슈퍼컴퓨팅을 구현한다. 

 

AI 및 HPC와 관련된 주요 과제를 해결하는 열쇠는 규모(scale)이다. 자연어 처리, 추천 시스템, 헬스케어 연구, 약물 발견 및 에너지와 같은 분야는 가속 컴퓨팅을 통해 비약적인 발전을 이뤄오고 있다.

 

이러한 발전의 많은 부분은 거대한 규모로 구동되는 애플리케이션에서 비롯된다. 이 같은 추세가 더욱 가속화되기 위해서는 애플리케이션이 실행되는 아키텍처가 유연하고 접근성이 높으며, 스케일 업 및 스케일 아웃 형태를 모두 취해야 한다. 

 

ND A100 v4 VM은 단일 VM에서 8개의 엔비디아 A100 GPU와 GPU당 200GB/s의 데이터 대역폭을 지원하는 엔비디아 HDR 인피니밴드를 결합한다. 이를 통해, VM당 무려 1.6Tb/s에 이르는 인터커넥트 대역폭을 구현한다. 

 

또한 가장 까다로운 AI 및 HPC 워크로드의 경우에는 동일한 저지연 인피니밴드 패브릭에서 수천 개의 엔비디아 A100 GPU로 확장하여, 다중 노드 분산 컴퓨팅을 위한 컴퓨팅 및 네트워킹 기능 모두를 지원할 수 있다. 

 

개발자를 위한 다양한 옵션

개발자들은 애플리케이션 개발은 물론, 애플리케이션을 배포한 후 인프라 관리 단계에서도 ND A100 v4 VM 상의 엔비디아 A100 GPU 성능을 극대화할 수 있는 다양한 옵션을 누릴 수 있다. 

 

개발을 간소화하고 개발시간을 단축할 수 있도록 엔비디아 NGC 카탈로그는 즉시 사용 가능한 GPU 최적화 애플리케이션 프레임워크와 컨테이너, 사전 훈련된 모델, 라이브러리, SDK, 헬름 차트(Helm chart)를 제공한다. 애저 마켓플레이스(Azure Marketplace) 상의 사전 구축된 AI 및 HPC용 엔비디아 GPU 최적화 이미지를 통해, 개발자들은 단 몇 번의 클릭만으로 NGC 카탈로그에서 GPU 가속 소프트웨어 사용을 시작할 수 있다. ND A100 v4 VM은 또한 대화형 AI 개발, 분산 훈련, 배치(batch) 추론, ML Ops를 통한 자동화를 위해 애저 머신러닝(Azure Machine Learning) 서비스에서도 지원된다. 

 

엔비디아 트라이톤(Triton) 인퍼런스 서버를 사용하면 생산단계에서 ND A100 v4 VM을 통해 머신러닝 파이프라인을 구축하는 작업을 더욱 간소화할 수 있다. 엔비디아 트라이톤은 오픈소스 소프트웨어로, 애저 머신러닝 서비스와 결합되어 GPU 및 CPU의 성능과 활용도를 모두 극대화함으로써 운영비를 최소화한다. 

 

또한, 개발자와 인프라 관리자들은 머지않아 완전 관리형 서비스인 애저 쿠버네티스 서비스(Azure Kubernetes Service)를 통해 엔비디아 A100 GPU를 장착한 ND A100 v4 VM에서 컨테이너형 애플리케이션을 배포하고 관리할 수 있게 될 전망이다.

그래픽 / 영상
많이 본 뉴스