그래프코어, 소프트웨어 최적화로 MLPerf 벤치마크에서 기록적인 성능 달성

2021년 12월 09일

AI 반도체 기업인 그래프코어(Graphcore)는 지속적인 포플러(Poplar) 소프트웨어 개발키트(SDK) 최적화와 신규 IPU-POD 제품 출시를 통해 AI 훈련 성능 향상에 주력해 왔다. 특히, 지난 6월에 이어 두 번째로 진행된 MLPerf 테스트에서 기록적인 성능을 달성하고, 효율성과 성능, 소프트웨어 성숙도 등 그래프코어 IPU 시스템의 경쟁력을 다시한번 입증했다.

그래프코어는 호스트 서버와 AI 컴퓨팅을 분리하는 등 시스템 설계 단계부터 업계 내 다른 기업들과는 근본적으로 다른 혁신적 접근방식을 통해 최소 3개월마다 성능 향상을 위한 소프트웨어 업데이트를 진행하고 있으며, IPU를 위한 새로운 모델 및 워크로드를 구현하고 최적화하는 작업을 수행하고 있다.

그래프코어의 페브리스 모이잔(Fabrice Moizan) 글로벌 세일즈 부사장은 “AI는 기존의 컴퓨팅 방식과는 완전히 다른 새로운 차원의 프로세싱이 필요하며, 기존의 칩 구조의 한계를 벗어날 필요가 있다. 그래프코어는 최적화된 시스템 아키텍처와 소프트웨어를 통해 AI 애플리케이션을 매우 효율적으로 지원하고 있다.”고 밝혔다.

그래프코어 IPU 시스템, 엔비디아 DGX A100 성능 능가

그래프코어 IPU 시스템은 지속적인 소프트웨어 최적화를 통해 향상된 성능을 제공하고 있다. 특히, 이번 MLPerf 벤치마크에서 그래프코어 IPU-POD16은 컴퓨터 비전 모델 ResNet-50 훈련에 있어 엔비디아의 DGX A100을 능가하는 성능을 보였다. ResNet-50을 훈련하는데 엔비디아 DGX A100은 29.1분이 걸린데 반해, 그래프코어의 IPU-POD16은 28.3분을 기록했다. 이는 소프트웨어만으로 첫 MLPerf 테스트 결과 대비 24%의 성능 향상을 이룬 것으로, 통상적으로 ResNet-50 모델 학습에 GPU가 사용되고 있다는 점을 감안하면 이번 결과는 더욱 주목할 만하다.

그래프코어 IPU-POD16이 ResNet-50 훈련에서 엔비디아의 DGX A100을 능가하는 성능을 기록했다.

새로운 IPU-POD256, ResNet-50 모델 훈련 시간 단 3분대 기록

그래프코어는 또한 최근 새롭게 출시된 IPU-POD128 및 IPU-POD256에 대한 벤치마크 결과도 공개했다. 그래프코어는 MLPerf '상용화 가능(Commercially Available)' 부문에 해당 시스템에 대한 테스트 결과를 제출하며 지속적인 시스템 규모 확대 및 성능 향상을 위한 노력을 증명했다. 그래프코어 IPU 시스템 상 역대 최고의 성능을 자랑하는 IPU-POD128과 IPU-POD256의 경우 ResNet-50 모델 훈련에 걸린 시간은 각 5.67분, 3.79분에 불과했다.

그래프코어의 새로운 플래그십 제품 IPU-POD128과 IPU-POD256의 ResNet-50 모델 훈련 시간은 각 5.67분, 3.79분에 불과했다.

자연어 처리(NLP) 모델 BERT의 경우, 그래프코어는 IPU-POD16, IPU-POD64 및 IPU-POD128 훈련 데이터를 오픈(Open) 및 클로즈드(Closed) 부문 모두에 제출했다. 특히 오픈 부문에서 최신 IPU-POD128의 훈련 시간은 5.78분으로 월등한 성능을 보였다. 전반적으로 BERT 모델 훈련 성능은 지난 MLPerf 벤치마크 대비 IPU-POD16은 5%, IPU-POD64는 12%가 각각 향상됐다.

효율성을 고려한 획기적인 설계

MLPerf 테스트의 원 데이터를 살펴보면 각 벤더의 시스템과 연결된 호스트 프로세서의 수가 굉장히 많다는 점이 눈에 띈다. 일부 참가 기업의 경우, 두 개의 AI 프로세서 마다 하나의 CPU를 지정하기도 한다. 이에 반해, 그래프코어는 가장 낮은 호스트 프로세서 대 IPU 비율을 지속적으로 유지하고 있다. IPU는 데이터 이동에만 호스트 서버를 사용하며 런타임 시점에 호스트 서버가 코드를 발송할 필요가 없다. 따라서 IPU 시스템에 필요한 호스트 서버 수가 적은만큼, 더욱 유연하고 효율적인 확장이 가능해진다.

BERT-Large와 같은 자연어 처리 모델의 경우, IPU-POD64는 하나의 듀얼 CPU 호스트 서버만 필요로 한다. ResNet-50은 이미지 사전 처리를 위해 더 많은 호스트 프로세서 지원이 필요하므로 IPU-POD64당 4개의 듀얼 코어 서버가 지정된다. 이때 시스템 대비 호스트 프로세서 비율은 1:8 로, MLPerf에 참가한 다른 모든 시스템보다 낮은 비율을 자랑한다. 이번 MLPerf 1.1 벤치마크 테스트에서 그래프코어는 BERT 훈련에서 단 10.6분으로 가장 빠른 단일 서버 훈련 시간을 기록했다는 점도 눈 여겨 볼만 하다.

그래프코어는 BERT 훈련에서 단 10.6분으로 가장 빠른 단일 서버 훈련 시간을 기록했다.

진선옥 기자 (jadejin@all4chip.com)