엔비디아, ‘엔비디아 인증 시스템’ 통과한 업계 최초의 서버 공개
2021년 01월 28일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

67bdd6edc74916b825b96bea536fdee1_1611772231_1248.jpg


엔비디아(www.nvidia.co.kr , CEO 젠슨 황)가 자사의 AI 워크로드 인증 프로그램인 엔비디아 인증 시스템(NVIDIA Certified System)을 통과한 업계 최초의 서버 제품을 공개했다. 엔비디아 인증 시스템은 엔비디아의 디자인 모범 사례를 따르고, 클러스터 환경에서 다양한 사용사례를 제공하는 일련의 인증 테스트다. 

 

엔비디아 인증 시스템은 엔비디아 멜라녹스(Mellanox) 네트워크에서 구동되는 최신 엔비디아 GPU를 통해 AI를 가속화하고, 대규모 AI 워크로드를 처리하기 위해 도입됐다. 이를 통해, 조직들이 레거시 시스템이 놓치고 있는 수많은 데이터로부터 통찰력을 도출하도록 돕는다. 

 

델 테크놀로지스(Dell Technologies), 기가바이트(GIGABYTE), 휴렛팩커드 엔터프라이즈(HPE), 인스퍼(Inspur), 슈퍼마이크로(Supermicro)는 엔비디아 A100 텐서 코어(Tensor Core) GPU를 탑재한 다음의 엔비디아 인증 시스템을 출하한다. 

  • 델 EMC 파워엣지(PowerEdge) R7525 및 R740 랙 서버
  • 기가바이트 R281-G30, R282-Z96, G242-Z11, G482-Z54, G492-Z51 시스템
  • HPE 아폴로(Apollo) 6500 Gen10, HPE 프로라이언트(ProLiant) DL380 Gen10 서버
  • 인스퍼 NF5488A5
  • 슈퍼마이크로 A+ 서버 AS -4124GS-TNR, AS -2124GQ-NART 

 

해당 서버들은 엔비디아의 모범 설계 사례를 준수하는 시스템임이 입증된 것으로, 머신러닝, 데이터 애널리틱스 등과 관련된 까다로운 과제를 해결할 수 있음을 의미한다.

 

67bdd6edc74916b825b96bea536fdee1_1611772195_275.jpg

<선두적인 시스템 제조업체들의 가속화된 서버가 엔비디아 인증을 받았다.> 

 

엔터프라이즈 AI의 전환점

엔비디아 인증 시스템은 업계 선도적인 기업들 사이에서 증가하고 있는 AI에 대한 요구를 충족시키기 위해 설계됐다. 아메리칸 익스프레스(American Express)는 실시간 사기 감지를 위해 최신 AI 모델을 사용하고 있다. 포드(Ford)는 자율주행차를 테스트하는데 필요한 데이터를 생성하기 위해 생성적 적대 신경망(GAN)을 활용하고 있으며, 도미노피자(Dominos)는 매년 배달되는 30억 개의 피자의 주문시기를 예측하기위해 AI를 적용하고 있다. 

 

AI는 주로 웹에 기반해 탄생한 기업들에 의해 사용되기 시작해 현재 소매업, 물류, 은행, 헬스케어 분야 등으로 적용범위가 확대되고 있다. 시장조사기관 가트너(Gartner)는 오늘날 기업의 37%가 생산 과정에 AI를 도입했으며, 2024년까지 이러한 기업들이 두 배에서 75%까지 증가할 것으로 보고 있다. 

 


기하급수적으로 증가하는 데이터

기업들은 급증하는 데이터에서 전략적 통찰력을 확보하기 위해 노력하고 있다. 데이터가 갈수록 늘어나고, 그 속에서 유의미한 데이터를 선별하는데 활용되는 AI 모델이 5년 만에 3만 배가 확대되면서 데이터센터와 네트워크 엣지(edge) 모두에서 네트워크 트래픽이 기하급수적으로 증가하고 있다. 따라서, GPU의 유연성과 가속화된 컴퓨팅에 대한 필요성이 커지고 있으며, 인프라를 효율적으로 확장할 수 있는 안전하고 안정적인 고속 인프라가 요구되고 있다. 

 

대규모 AI 워크로드 처리

엔터프라이즈 AI가 필요로 하는 높은 성능, 프로그래밍 가능성(programmability), 그리고 안전한 처리량을 제공하는 엔비디아 인증 시스템은 엔비디아 암페어(Ampere) 아키텍처를 기반으로 하는 GPU의 컴퓨터 성능과 안전한 고속 엔비디아 멜라녹스 네트워킹을 결합한다. 

 

시스템에 인증을 부여하기 위해서는 여러 컴퓨팅 노드가 필요한 작업부터 단일 GPU 성능의 일부만 필요한 작업에 이르는 광범위한 워크로드에 걸쳐 테스트를 수행한다. 이 시스템은 GPU에 최적화된 애플리케이션을 위한 엔비디아의 허브인 NGC 카탈로그에서 AI 애플리케이션을 실행하도록 최적화돼 있다.

 

NGC는 헬스케어(클라라(Clara)), 로보틱스(아이작(Isaac))와 같은 수직 시장에 AI를 구현하는 소프트웨어 개발 키트의 기반이 된다. 또한, NGC는 추천 시스템(멀린(Merlin)), 지능형 동영상 분석(메트로폴리스(Metropolis))와 같은 새로운 사용사례를 지원하는 프레임워크를 보유하고 있다. 특히, 엔비디아 인증 시스템은 다음과 같은 테스트를 통과해야 한다.

  • 딥러닝 훈련 및 추론
  • 머신러닝 알고리즘
  • 지능형 동영상 분석
  • 네트워크 및 스토리지 오프로드 

 

테스트는 실제 사용사례에 초점을 둔다. 이는 AI 프레임워크와 컨테이너를 사용하며, 모두 NGC 카탈로그에서 사용할 수 있다. 결과적으로, 엔비디아 인증 시스템을 통해 기업들은 세계에서 가장 강력한 AI 컴퓨터 상의 하드웨어 및 소프트웨어에 액세스 할 수 있게 된다. 세계 최대 클라우드 서비스 제공업체와 세계 10대 슈퍼컴퓨터 중 8대는 엔비디아 기술을 채택했다. 또한, 엔비디아 기반 시스템은 MLPerf와 같은 AI 벤치마크를 주도하고 있다.

 

엔비디아 인증 시스템에는 최대 8개의 A100 GPU와 고속 인피니밴드(InfiniBand) 또는 이더넷 네트워크 어댑터를 탑재한 강력한 데이터센터 서버는 물론, 기업 네트워크의 엣지에서 AI를 실행하도록 특별 설계된 주요 AI 시스템이 포함돼 있다. 

 

OEM은 커넥트X-6(ConnectX-6) 인피니밴드 혹은 이더넷 어댑터와 블루필드-2(BlueField-2) DPU와 같은 엔비디아 멜라녹스 케이블, 스위치, 네트워크 카드를 활용해 시스템을 인증한다. 해당 어댑터는 낮은 지연시간(레이턴시)의 높은 처리량 외에도, 부팅시 하드웨어의 자체 보안 기능(hardware root of trust)부터 애플리케이션의 연결 추척에 이르는 여러 계층의 보안을 지원한다. 

 

모든 엔비디아 인증 시스템은 엔비디아 멜라녹스 8700 HDR 200G 인피니밴드 스위치 또는 멜라녹스 SN3700 이더넷 스위치를 사용해 인증됐으며, 오픈소스 코드 지원을 포함해 전체 소프트웨어 스택에서 엔터프라이즈 지원을 통해 제공된다. 

 

11개의 시스템 제조업체의 약 70개 시스템이 인증 프로그램에 참여했으며, 현재까지 6개 업체의 14개 서버가 엔비디아 인증을 받았다.

그래픽 / 영상
많이 본 뉴스