엑사급 슈퍼컴퓨팅을 위한 진화, 자일링스의 HPC 클러스터링 솔루션과 알베오 가속기 카드
2021년 11월 16일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

3b47bf9d7dcea28ebdadce2f42fd5f68_1637028175_8557.jpg



고성능 컴퓨팅(HPC)이 엑사급 한계를 넘어 발전하기 위해서는 탁월한 와트 당 성능을 제공할 수 있는 아키텍처가 필요하다. CPU 및 GPU와 같은 폰 노이만(Von Neumann) 아키텍처가 한계에 이르면서 일반적인 HPC 아키텍처는 적정한 와트 당 성능을 제공하는데 어려움을 겪게 될 것이다.


자일링스(Xilinx)는 기존의 고객 인프라 및 네트워크 전반에 걸쳐 대규모 스케일 아웃(Scale-Out)이 가능한 획기적인 HPC 클러스터링 솔루션과 HPC 및 빅데이터 작업부하를 위해 탁월한 와트 당 성능을 제공하는 알베오 U55C(Alveo U55C) 데이터센터 가속기 카드를 출시했다.


새로운 알베오 U55C 카드는 자일링스 알베오 가속기 포트폴리오 중 가장 높은 컴퓨팅 밀도와 HBM 용량을 제공하는 가장 강력한 알베오 가속기 카드이다. 또한 새로운 자일링스 RoCE v2 기반 클러스터링 솔루션을 이용해 기존의 데이터센터 인프라 및 네트워크에서 강력한 FPGA 기반 HPC 클러스터링을 구현하여 대규모 컴퓨팅 작업부하를 처리할 수 있다.


알베오 U55C 카드는 낮은 150W의 최대 전력으로 단일 슬롯 FHHL(Full Height, Half Length) 폼팩터로 구현되었다. 이전 제품인 듀얼 슬롯 알베오 U280 카드 대비 두 배에 이르는 16GB HBM2와 탁월한 컴퓨팅 밀도를 제공한다. U55C는 고밀도 알베오 가속기 기반 클러스터를 생성할 수 있도록 더 작은 폼팩터로 더욱 뛰어난 컴퓨팅 성능을 지원한다. 이는 빅데이터 분석 및 AI 애플리케이션과 같이 확장이 필요한 빅 컴퓨팅과 고밀도 스트리밍 데이터 및 높은 IO가 수반되는 수학 문제를 해결할 수 있다.


RoCE v2 및 데이터센터 브릿징과 200Gbps 대역폭을 활용하는 API 기반 클러스터링 솔루션은 공급업체에 종속되지 않고 성능 및 처리지연 측면에서 인피니밴드(InfiniBand)에 준하는 알베오 네트워크를 구현할 수 있다. 또한 HPC 개발자들은 통합 MPI를 통해 자일링스 바이티스(Vitis) 통합 소프트웨어 플랫폼에서 알베오 데이터 파이프라인을 스케일 아웃(Scale-Out)할 수 있다. 이제 기존의 개방형 표준 및 프레임워크를 활용하여 서버 플랫폼 및 네트워크 인프라와 공유 작업부하 및 메모리와 상관없이 수백 개의 알베오 카드를 확장할 수 있다.


3b47bf9d7dcea28ebdadce2f42fd5f68_1637028205_0636.jpg


알베오 U55C: HPC 및 빅데이터 작업부하를 위한 솔루션



소프트웨어 개발자 및 데이터 과학자는 바이티스 플랫폼을 활용하여 애플리케이션 및 클러스터의 하이-레벨 프로그래밍 기능으로 알베오와 적응형 컴퓨팅의 이점을 누릴 수 있다. 자일링스는 하드웨어 전문지식이 없는 소프트웨어 개발자와 데이터 과학자들이 적응형 컴퓨팅에 보다 쉽게 접근할 수 있도록 바이티스 개발 플랫폼과 툴 플로우에 상당한 투자를 진행했다. 파이토치(Pytorch) 및 텐서플로우(Tensorflow)와 같은 주요 AI 프레임워크는 물론, C, C++ 및 파이썬(Python)과 같은 하이-레벨 프로그래밍 언어를 지원함으로써 개발자들이 특정 API 및 라이브러리를 사용하여 도메인 솔루션을 구현하거나 자일링스 소프트웨어 개발 키트를 활용하여 기존 데이터센터 내의 주요 HPC 작업부하를 쉽게 가속화할 수 있도록 지원한다. 


세계 최대 규모의 전파 천문학 안테나 어레이를 보유하고 있는 호주 국립과학산업연구기구인 CSIRO는 SKA(Square Kilometer Array) 전파 망원경의 신호 처리를 위해 알베오 U55C 카드를 활용하고 있다. HBM과 함께 알베오 카드를 네트워크 연결 가속기로 구축하면, HPC 신호처리 클러스터를 확장하여 대규모 처리량을 달성할 수 있다. CSIRO는 알베오 가속기 기반 클러스터를 통해 131,000개의 안테나에서 데이터를 실시간으로 집계하고, 필터링, 준비 및 프로세싱을 위한 방대한 컴퓨팅 작업을 처리하고 있다. P4 지원 100Gbps 스위치와 완벽하게 네트워크로 연결된 420개의 알베오 U55C 카드는 신호처리 클러스터 전반에 걸쳐 460GB의 HBM2 대역폭을 제공한다. 알베오 U55C 클러스터는 낮은 전력 및 비용 효율적인 풋프린트를 통해 전반적으로 15Tb/s 처리량에 달하는 프로세싱 성능을 제공한다. CSIRO는 현재 다른 전파 천문학 또는 관련 산업에서 동일한 성과를 달성할 수 있도록 알베오 레퍼런스 디자인 예제를 완성하는 중이다.


앤시스(Ansys)의 LS-DYNA 충돌 시뮬레이션 소프트웨어는 전세계 거의 모든 자동차 회사에서 사용되고 있다. 안전 및 구조 시스템의 설계는 물리적 충돌 테스트 비용을 완화하는 컴퓨터 지원 설계 유한 요소법(Finite Element Method, 혹은 FEM) 시뮬레이션 모델의 성능에 달려 있다. 유한 요소법 해석은 자유도가 수억 개에 달하는 시뮬레이션을 구동하는 주요 알고리즘이며, 이러한 거대한 알고리즘은 PCG, 희소행렬(Sparse Matrix), ICCG와 같은 보다 기초적인 해석으로 나눌 수 있다. LS-DYNA는 다수의 알베오 카드 전반에 걸쳐 하이퍼 병렬 데이터 파이프라이닝으로 확장됨에 따라 x86 CPU에 비해 성능을 5배 이상 가속화할 수 있다. 이를 통해 LS-DYNA 고객들은 알베오 파이프라인에서 클럭 주기당 더 많은 작업을 수행하고, 획기적인 시뮬레이션 시간 단축의 혜택을 누릴 수 있다.


3b47bf9d7dcea28ebdadce2f42fd5f68_1637028241_7401.jpg


LS-DYNA를 위한 U55C 기반 하이퍼 병렬 데이터 파이프라이닝


선도적인 그래프 분석 플랫폼을 공급하는 타이거그래프(TigerGraph)는 그래프 기반 추천 엔진 및 클러스터링 엔진을 구동하는 가장 많은 2개의 알고리즘을 클러스터링하고, 가속화하기 위해 다수의 알베오 U55C 카드를 사용하고 있다. 그래프 데이터베이스는 데이터 과학자를 위한 혁신적인 플랫폼이다. 그래프는 사일로에서 데이터를 가져와 데이터 간의 관계에 초점을 맞춘다. 그래프의 다음 단계는 이러한 해답을 실시간으로 찾는 것이다. 알베오 U55C는 추천 엔진에 대한 쿼리(Query) 시간과 예측을 분 단위에서 밀리초 단위로 가속화한다. 다수의 U55C를 활용하여 분석 성능을 스케일 업(Scale Up)함으로써 뛰어난 컴퓨팅 성능과 메모리 대역폭으로 CPU 기반 클러스터에 비해 그래프 쿼리 속도를 최대 45배까지 가속화할 수 있다. 품질 스코어 또한 최대 35%까지 증가하여 신뢰도를 높이고, 오탐 빈도(False Positives Rate)를 한 자릿수까지 크게 낮출 수 있다.

진선옥 기자 (jadejin@all4chip.com)
그래픽 / 영상
많이 본 뉴스