그래프코어, 머신 인텔리전스에 특화된 2세대 IPU 시스템 ‘IPU-머신 M2000’ 출시

2020년 07월 18일

그래프코어(Graphcore, www.graphcore.ai )는 그래프코어의 2세대 IPU(Intelligence Processing Unit) 플랫폼인 ‘IPU-머신 M2000(IPU-Machine M2000)’을 출시한다고 밝혔다. 해당 솔루션은 보다 큰 처리 능력과 메모리, 내장된 확장성을 바탕으로 극도의 머신 인텔리전스 워크로드를 처리 가능하며, 데이터센터급 연산 성능을 구현할 수 있다.

IPU-머신 M2000은 플러그 앤 플레이 방식의 머신 인텔리전스 컴퓨팅 블레이드로, 간편한 구축을 위해 설계되었으며 대규모 확장이 가능한 시스템을 지원한다. 슬림한 블레이드 유닛 하나로 1 페타플롭(PetaFlop)에 달하는 머신 인텔리전스 컴퓨팅 성능을 구현하며, 인공지능(AI)의 스케일아웃(scale-out)에 최적화된 통합 네트워킹 기술을 탑재했다.

각각의 IPU-머신 M2000은 그래프코어의 새로운7나노미터(nm) 콜로서스 Mk2 GC200 IPU(Colossus Mk2 GC200 IPU) 프로세서 4개에 의해 구동되며, 그래프코어의 포플러(Poplar) 소프트웨어 스택의 완벽한 지원을 받는다. 기존 Mk1 IPU 제품의 모델 및 시스템과 새로운 Mk2 IPU 시스템 간 뛰어난 호환성을 자랑할 뿐 아니라 이미 동급 최고인 1세대 그래프코어IPU 제품에 비해서도 8배나 향상된 성능을 제공한다.

또한 포플러 소프트웨어는 IPU가 그래프코어의 독자적인 익스체인지-메모리(Exchange-Memory) 통신 기능을 통해 스트리밍 메모리(Streaming Memory)에 액세스할 수 있도록 지원한다. 이를 통해 수천억 개의 매개 변수를 갖는 대규모 모델 또한 지원이 가능하다. 각 IPU-머신 M2000은 최대 450GB의 밀도를 제공하며, 초당180테라바이트에 이르는 독보적인 대역폭으로 익스체인지-메모리를 지원한다. 이에 따라 IPU 익스체인지-메모리는 최신 7나노 공정의 GPU 제품 대비 10배 이상의 높은 메모리 밀도와 100배 이상 높은 메모리 대역폭의 이점을 제공한다.

IPU의 독자적인 메모리 액세스 방식과 동급 최고의 인-프로세서 메모리(In-Processor Memory) 설계, 익스체인지 메모리 기능의 조합은 희소성(sparsity)에 대한 네이티브 지원과 함께 대규모의 복잡한 머신 러닝 모델을 초고속으로 구현할 수 있게 해준다.

IPU-머신 M2000의 아키텍처는 최대 64,000 IPU의 데이터센터 규모 시스템을 IPU-POD 구성 방식으로 구축해 16 엑사플롭(ExaFlops)의 머신 인텔리전스 연산 성능을 구현할 수 있다. 이를 통해 가장 까다로운 머신 인텔리전스 학습이나 대규모 구축에 따른 워크로드도 처리 가능하다.

IPU-머신 M2000 은 단일 IPU-머신 M2000 박스 하나를 기존의 CPU 서버 중 하나에 직접 연결해 구축 가능하며, 서버 한대에 최대 8대의 IPU-머신 M2000을 추가로 연결시킬 수도 있다. 대규모 시스템의 경우, 표준 19인치 랙에 내장된 16개의 IPU-머신 M2000으로 구성된 랙 스케일 IPU-POD 64를 사용해 랙을 스케일아웃해 데이터센터급 머신 인텔리전스 연산 성능을 구현한다.

IPU-머신 M2000과 IPU-POD는 그래프코어의 새로운IPU-패브릭(IPU-Fabric) 기술을 통해 규모에 맞게 연결 가능하다. 내장된 AI네트워킹 시스템으로, 머신 인텔리전스 통신 전용으로 설계된 해당 기술은 저지연의 전용 패브릭을 구현해 데이터센터 전반에 걸쳐 IPU를 연결시킨다.

그래프코어의 ‘버추얼-IPU(Virtual-IPU)’ 소프트웨어는 워크로드 관리 및 오케스트레이션(orchestration) 소프트웨어와 통합되어 다양한 사용자의 학습과 추론을 위한 서비스를 손쉽게 제공하며, 이를 통해 사용자는 가용 자원을 작업별로 조정 및 재구성할 수 있다.

또, 머신 인텔리전스 워크로드에 단일 IPU 또는 수천 개의 IPU를 사용하는 경우에도 그래프코어의 포플러 SDK(Poplar SDK)를 통해 해당 작업을 간소화할 수 있다. 포플러는 텐서플로우(TensorFlow)나 파이토치(PyTorch)와 같이 사용자가 선호하는 AI 프레임워크를 활용할 수 있으며, 해당 프레임워크로부터 연산 내용, 데이터 및 통신을 포괄하는 완전한 연산 그래프를 구축한다. 이후 해당 연산 그래프를 컴파일하고, 연산, 메모리 및 네트워킹 통신을 관리하는 런타임 프로그램을 구축하여 가용 IPU 하드웨어의 활용성을 극대화할 수 있다.

그래프코어 IPU-머신 M2000 솔루션은 데이터센터에 머신 인텔리전스 컴퓨팅 기능의 추가 도입 계획을 검토하는 기업에게 강력하고 유연하며 간편한 사용을 바탕으로 탁월한 선택지를 제공한다.

IPU-머신 M2000은 새로운 그래프코어 콜로서스 Mk2 GC200 IPU를 탑재하고 있다. TSMC사의 최신 7나노 공정 기술을 이용해 개발된 각각의 칩에는 823 평방밀리미터(sqmm) 넓이의 단일 다이(die)에 594억 개가 넘는 트랜지스터가 탑재되어 있어 지금까지 개발된 프로세서 중 가장 정교한 수준의 아키텍처를 자랑한다.