전세계 대학, 연구 가속화 위해 엔비디아 시스템 채택
2021년 11월 20일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 서던 메소디스트 대학교(SMU), 텍사스 A&M(Texas A&M), 미시시피 주립 대학교(MSU), 레스터 대학(University of Leicester)를 비롯한 전세계 대학에서 엔비디아 시스템으로 연구 영역을 확장하고 있다고 밝혔다.

 

7f48ab064f6d85afd954c5761420b13c_1637344849_6921.jpg

<서던 메소디스트 대학은 엔비디아 DGX 슈퍼POD를 통해 AI 시대를 발전시키고 있다> 

 

SMU는 12,000명 이상의 학생과 2,400명의 교수진, 직원으로 구성된 거대한 메트로 커뮤니티를 위한 머신러닝 프로젝트를 지원하기 위해 가속 슈퍼컴퓨터인 엔비디아 DGX 슈퍼POD(DGX Super POD)를 구축 중이다. SMU는 연구 가속화를 위해 엔비디아 기술을 활용하겠다고 발표한 미국 중남부의 3개 대학 중 하나다. 

 

텍사스 A&M(Texas A&M) 대학교와 미시시피 주립 대학교(MSU)는 교내 최신 고성능 컴퓨터의 중추 시스템으로 엔비디아의 초당 400Gbit(기가비트) 인피니밴드(InfiniBand) 네트워킹 플랫폼인 엔비디아 퀀텀-2(Quantum-2)를 도입했다. 

 

SMU의 최고정보책임자(CIO) 마이클 하이츠(Michael Hites)는 올해 앞서 플로리다 대학에 설치된 시스템을 언급하면서 “SMU는 미국에서 두 번째로 DGX 슈퍼POD를 도입한 대학이며, 이를 통해 학위 프로그램과 기업 파트너십을 강화해 SMU 커뮤니티의 AI 기술 우위를 확보할 것이다”라고 말했다. 

 

SMU의 연구진을 지원하는 IT 팀 관리자 제이슨 워너(Jason Warner)는 SMU 포드 연구 혁신관(Ford Hall for Research and Innovation)의 신규 센터에 데이터 과학 전문가 팀을 고용했다. 이 팀의 리더 에릭 고닷(Eric Godat)은 SMU 학생들이 DGX 슈퍼POD를 적극 활용할 수 있도록 지원하고 있다. 첫 번째 단계로 그는 두 명의 SMU 학생에게 엔비디아 젯슨(Jetson) 모듈을 사용해 DGX 슈퍼POD의 미니어처 모델을 구축하는 과제를 냈다.

 

7f48ab064f6d85afd954c5761420b13c_1637344799_0452.jpg

<SMU 학부생인 코너 오젠(Connor Ozenne)은 SMU의 연례 보고서에 실린 미니어처 DGX 슈퍼POD 제작에 참여했다> 

 

엔비디아 퀀텀 인피니밴드 네트워크에서 20개의 엔비디아 DGX A100 시스템으로 구성된 풀사이즈 슈퍼컴퓨터는 레고 같은 모듈식 아키텍처 덕분에 빠르면 1월부터 가동될 수 있다. 이는 100페타플롭의 뛰어난 컴퓨팅 성능을 제공하므로 세계에서 가장 빠른 슈퍼컴퓨터 전 세계 상위 500대 슈퍼컴퓨터 순위(TOP500)에 이름을 올리기에 충분하다. 

 

텍사스 A&M, 슈퍼컴퓨터 ACES에 엔비디아 퀀텀-2 인피니밴드 활용

텍사스 A&M 대학의 고성능 컴퓨팅 센터는 엔비디아 퀀텀-2 인피니밴드 플랫폼을 최초로 활용하는 고객 중 하나다. 델 테크놀로지스(Dell Technologies)에서 구축한 ACES 슈퍼컴퓨터는 400G 인피니밴드 네트워크를 사용해 4개 공급업체의 5개 가속기에 연결한다. 

 

ACES의 수석 연구원이자 프로젝트 책임자인 홍가오 리우(Honggao Liu)는 엔비디아 퀀텀-2는 "ACES의 단일 작업이 모든 컴퓨팅 코어와 가속기를 사용해 확장할 수 있도록 한다. 이를 통해 200G의 엔비디아 퀀텀-1 인피니밴드 처리량이 2배 증가하는 것 외에도 총소유비용(TCO)이 향상되고, 네트워크 내 컴퓨팅 기능이 강화되며 확장성이 향상될 것이다”라고 말했다. 

 

텍사스 A&M은 이미 연구원들에게 600개 이상의 엔비디아 A100 텐서 코어(Tensor Core)와 이전 세대 GPU를 포함하는 4개의 시스템에서 가속 컴퓨팅에 대한 액세스를 제공하고 있다. 4개 시스템 중 2개는 이전 버전의 엔비디아 인피니밴드 기술을 사용한다. 

 

미시시피 주립대(MSU), 엔비디아 퀀텀-2 인피니밴드 채택

MSU도 엔비디아 퀀텀-2 인피니밴드 플랫폼을 활용할 계획이다. MSU가 관리하는 4개의 클러스터 중 가장 큰 오리온(Orion)을 보완하는 새로운 시스템을 위해 선택된 네트워크이며, 모두 이전 버전의 인피니밴드를 사용한다. 

 

오리온과 신규 시스템은 모두 미국 해양대기청(NOAA)의 자금 지원을 받아 델 테크놀로지스에서 구축했다. 이 시스템들은 NOAA 업무와 MSU 연구를 수행하고 있다. 오리온은 2019년 6월 TOP500에 처음으로 이름을 올렸을 때 미국에서 4번째로 큰 학술용 슈퍼컴퓨터로 선정됐다. 

 

MSU의 고성능 컴퓨팅 디렉터 트레이 브렉큰리지(Trey Breckenridge)는 "MSU의 4세대 슈퍼컴퓨터가 모두 인피니밴드를 사용하고 있으므로 대규모 작업을 안정적으로 실행할 만큼 강력하고 성숙한 기술이라는 것을 알고 있다"라고 말했다. 그는 "MSU는 HPC에서 선두를 유지하기 위해 엔비디아 퀀텀-2가 포함된 새로운 시스템을 추가하고 있다"라고 덧붙였다. 

 

영국에 상륙한 퀀텀 네트워크

영국에서는 DIaL 시스템으로 알려진 레스터 대학(University of Leicester)의 데이터 집약형 슈퍼컴퓨터가 인피니밴드의 200G 버전인 엔비디아 퀀텀으로 업그레이드됐다. 레스터 대학의 이론 천체 물리학 교수이자 HPC 센터 소장인 마크 윌킨슨(Mark Wilkinson)은 “DIaL은 우리를 둘러싼 우주에 대한 이해를 높이기 위해 답해야 하는 복잡하고 데이터 집약적인 질문을 다루기 위해 특별 설계됐다”라고 말했다. 

 

이어 "이러한 전문 워크로드의 강력한 요구 사항으로 인해 인피니밴드만이 제공할 수 있는 높은 대역폭과 짧은 지연 시간이 연구에 필수적입니다"라고 덧붙였다. DIaL은 에든버러 대학(University of Edinburgh)의 투르사(Tursa) 시스템을 포함해 인피니밴드를 사용하는 영국 DiRAC 시설의 슈퍼컴퓨터 4대 중 하나다. 

 

평가에서 더욱 빛나는 인피니밴드

기술 평가를 통해 연구진은 퀀텀 네트워크에서 엔비디아 GPU 가속기를 갖춘 투르사가 대체 인터커넥트를 사용해 CPU 전용 테서랙트(Tesseract) 시스템의 5배 성능을 제공한다는 것을 확인했다. 

 

애플리케이션 벤치마크에 따르면 투르사의 16개 노드는 테서랙트의 512개 노드보다 2배 높은 성능을 제공하는 것으로 나타났다. 투르사는 테서랙트 대비 킬로와트당 성능이 크게 향상되어 네트워크 대역폭의 90%를 사용해 노드당 10테라플롭을 제공한다. 이는 전세계 대부분 TOP500 시스템이 엔비디아 기술을 활용하는 이유를 뒷받침한다.

그래픽 / 영상
많이 본 뉴스