엔비디아 A100 텐서코어 GPU, 아마존 EC2 P4d 인스턴스에 채택

2020년 11월 04일

엔비디아(www.nvidia.co.kr , CEO 젠슨 황)는 아마존웹서비스(Amazon Web Services)의 새로운 EC2 P4d 인스턴스에 엔비디아 A100 텐서코어(Tensor Core) GPU가 탑재된다고 밝혔다.

AWS의 첫 GPU 인스턴스는 엔비디아 M2050과 함께 10년전에 출시됐다. 당시는 인공지능(AI)과 딥 러닝이 부상하기 전으로, 쿠다(CUDA) 기반 애플리케이션은 주로 과학 시뮬레이션을 가속화하는데 초점이 맞춰졌다. 이후 AWS는 K80, K520, M60, V100 및 T4를 포함하는 안정적인 클라우드 GPU 인스턴스를 추가했다.

새로운 P4d 인스턴스는 머신러닝 훈련 및 고성능컴퓨팅(HPC) 애플리케이션을 위해 AWS의 최고 성능과 비용 효율성을 제공하는 GPU 기반 플랫폼을 지원한다. 이는 기본 FP32 정밀도 대비 각각 FP16에서 최대 3배, T432에서 머신러닝 모델 훈련 시간을 최대 6배 단축한다. 또한 P4d 인스턴스는 탁월한 추론 성능을 제공한다. 지난달 MLPerf 추론 벤치마크에서 엔비디아 A100 GPU는 CPU 대비 최대 237배 빠른 성능을 보였다.

각각의 P4d 인스턴스는 8개의 엔비디아 A100 GPU로 구동되며, AWS 울트라클러스터즈(AWS UltraClusters)를 통해 고객은 AWS EFA(Elastic Fabric Adaptor)를 사용하여 한번에 4,000개 이상의 GPU에 대한 확장 가능한 온-디맨드 액세스를 얻을 수 있다. 또한, P4d는 400Gbps 네트워킹을 제공하고, NV링크(NVLink), NV스위치(NVSwitch), NCCL, GPUDirect RDMA 등의 엔비디아 기술을 통해 딥 러닝 훈련 워크로드를 더욱 가속화한다. AWS EFA를 통한 엔비디아 GPUDirect RDMA 기술로 CPU와 시스템 메모리를 통과하지 않고도 서버 간 GPU에서 GPU로 데이터를 전송해 낮은 레이턴시(지연시간) 네트워킹을 보장한다.

P4d 인스턴스는 아마존 ECS(Amazon Elastic Container Service), 아마존 EKS(Elastic Kubernetes Service), AWS 패러렐클러스터(AWS ParallelCluster), 아마존 세이지메이커(Amazon SageMaker) 등의 AWS 소프트웨어를 활용한다. 이 외에도 P4d 인스턴스는 HPC 애플리케이션, AI 프레임워크, 사전 훈련된 모델, 헬름 차트 및 텐서RT(TensorRT)와 트리톤 추론 서버(Triton Inference Server)와 같은 소프트웨어를 포함한 NGC에서 사용할 수 있는 최적화된 컨테이너형 소프트웨어를 모두 활용할 수 있다.

P4d 인스턴스는 현재 미국 동부와 서부에서 사용할 수 있으며, 곧 이용가능 지역이 추가될 예정이다. 세이빙 플랜(Savings Plans), 리저브드 인스턴스(Reserved Instances)와 함께 온-디맨드 또는 스팟 인스턴스(Spot Instances)로 구매할 수 있다.

GPU 클라우드 컴퓨팅의 역사가 시작된 10년 동안 100엑사플롭 이상의 AI 컴퓨팅이 시장에 출시됐다. 엔비디아 A100 GPU 기반의 아마존 EC2 P4d 인스턴스가 출시됨에 따라 새로운 GPU 클라우드 컴퓨팅 시장이 열릴 예정이다. 엔비디아와 AWS는 다양한 애플리케이션들의 AI 경계가 계속 확장하도록 지원하고 있다.

그래픽 / 영상