엔비디아 H100 텐서 코어 GPU, MLPerf에서 세계 기록 수립

2022년 11월 11일

엔비디아(www.nvidia.co.kr CEO 젠슨 황)가 엔비디아 H100 텐서 코어 GPU(NVIDIA H100 Tensor Core GPU)가 업계 그룹 AI 훈련에 대한 최신 테스트에서 엔터프라이즈 AI 워크로드 전반에 걸쳐 세계 기록을 세웠다고 밝혔다. MLPerf 추론 벤치마크에서 H100을 선보인 지 2개월 만이다. 이는 고급 AI 모델을 만들고 배포할 때 최고의 성능을 요구하는 사용자에게 H100가 최고의 선택이라는 것을 보여준다.

MLPerf는 AI 성능 측정을 위한 업계 표준이다. 아마존(Amazon), Arm, 바이두(Baidu), 구글(Google), 하버드 대학교(Harvard University), 인텔(Intel), 메타(Meta), 마이크로소프트(Microsoft), 스탠퍼드 대학교(Stanford University)및 토론토 대학교(University of Toronto)를 포함하는 광범위한 그룹의 지원을 받는다. 이번 MLPerf 벤치마크에서 엔비디아 A100 텐서 코어 GPU는 고성능 컴퓨팅(HPC)에서 작년에 설정한 기준을 높였다.

엔비디아 H100 GPU는 MLPerf 훈련을 위해 처음 제출되었을 때 A100 GPU보다 최대 6.7배 더 빨랐다

호퍼(Hopper)라고 불리는 H100 GPU는 MLPerf 훈련에서 가속기별 성능의 기준을 높였다. MLPerf 훈련에 처음 제출되었을 때 이전 세대 GPU보다 최대 6.7배 더 높은 성능을 제공했다. 더불어, 오늘날의 A100 GPU는 소프트웨어의 발전 덕분에 2.5배 더 많은 힘을 갖고 있다. 부분적으로는 트랜스포머 엔진(Transformer Engine) 덕분에 호퍼(Hopper)는 자연어 처리를 위해 인기 있는 BERT 모델을 훈련하는 데 탁월했다. MLPerf AI 모델 중 가장 크고 많은 성능이 요구되는 모델 중 하나이다.

MLPerf는 벤치마크가 컴퓨터 비전, 자연어 처리, 추천 시스템, 강화 학습 등 오늘날 가장 인기 있는 AI 워크로드를 다루기 때문에 사용자가 정보를 기반으로 구매 결정을 내릴 수 있다. 또한 테스트는 동료 심사되므로 사용자는 결과를 신뢰할 수 있다.

A100 GPU, HPC서 새로운 정점에 도달

별도의 MLPerf HPC 벤치마크 제품군에서 A100 GPU는 슈퍼컴퓨터에서 실행되는 까다로운 과학적 워크로드에서의 AI 모델 훈련을 위한 모든 테스트를 휩쓸었다. 이 결과는 엔비디아 AI 플랫폼이 세계에서 가장 어려운 기술 과제에 맞게 대응할 수 있음을 보여준다. 예를 들어 A100 GPU는 천체 물리학에 대한 코스모플로우(CosmoFlow) 테스트에서 2년 전 1차 MLPerf HPC에서 달성한 최고 결과보다 9배 빠르게 AI 모델을 훈련했다. 동일한 작업 부하에서 A100은 다른 제품보다 칩당 최대 66배 더 많은 처리량을 제공했다.

HPC 벤치마크는 천체 물리학, 일기 예보 및 분자 역학 작업을 위한 모델을 훈련시킨다. 그들은 약물 발견과 같은 많은 기술 분야 중 하나이며, 과학을 발전시키기 위해 AI를 채택한다.

전 세계 테스트에서 A100 GPU는 훈련 속도와 처리량 모두에서 선두를 달리고 있다.

아시아, 유럽, 미국의 슈퍼컴퓨터 센터가 MLPerf HPC 테스트의 최신 라운드에 참가했다. 딥캠(DeepCAM) 벤치마크에서 첫 선을 보인 델 테크놀로지스(Dell Technologies)는 엔비디아 A100 GPU를 사용해 강력한 결과를 보여줬다.

타의 추종을 불허하는 생태계

엔터프라이즈 AI 훈련 벤치마크에서는 마이크로소프트 애저(Microsoft Azure) 클라우드 서비스를 포함한 총 11개의 회사가 엔비디아 A100과 A30, A40 GPU를 사용해 제출했다. 에이수스(ASUS), 델 테크놀로지스, 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 휴렛팩커드 유한회사(Hewlett Packard Enterprise), 레노버(Lenovo), 슈퍼마이크로(Supermicro)를 포함한 시스템 제조업체가 총 9개의 엔비디아 인증 시스템을 사용해 제출했다.

최신 라운드에서 최소 3개의 회사가 엔비디아에 합류해 8개의 MLPerf 훈련 워크로드에 대한 결과를 제출했다. 실제 애플리케이션은 종종 다양한 AI 모델이 필요하기 때문에 이러한 다용성은 중요하다.

NVIDIA AI 플랫폼은 칩에서부터 시스템, 소프트웨어, 서비스에 이르는 풀 스택을 제공한다. 이를 통해 시간이 지남에 따라 지속적인 성능 향상을 보인다. 예를 들어, 최신 HPC 테스트의 제출물은 기술 문서에 설명된 소프트웨어 최적화와 기술군을 적용했다. 이로 인해 하나의 벤치마크에서 런타임을 101분에서 22분으로, 약 5배가량 단축했다. 두 번째 문서에서는 엔비디아가 엔터프라이즈 AI 벤치마크를 위해 플랫폼을 최적화한 방법을 설명한다. 예를 들어, 엔비디아 DALI를 사용해 컴퓨터 비전 벤치마크용 데이터를 효율적으로 로드하고 사전 처리하는 방법에 대해 설명했다.

테스트에 사용된 모든 소프트웨어는 MLPerf 저장소에서 사용할 수 있으므로 누구나 세계적 수준의 결과를 얻을 수 있다. 엔비디아는 GPU 애플리케이션용 소프트웨어 허브인 NGC에 지속적으로 최적화를 추가하고 있다.