
엔비디아(www.nvidia.co.kr )가 엔비디아 블랙웰 플랫폼(NVIDIA Blackwell) 기반 수랭식 시스템이 기존 공랭식 아키텍처 대비 최대 300배 높은 수자원 효율성을 제공한다고 밝혔다.
전통적으로 데이터센터는 공랭식에 의존해왔다. 이 방식은 기계식 냉각기가 차가운 공기를 순환시켜 서버에서 발생하는 열을 흡수하고, 이를 통해 서버가 최적의 상태를 유지하도록 돕는 방식이다. 그러나 AI 모델의 규모가 커지고 AI 추론 모델의 사용이 증가함에 따라, 이러한 최적 조건을 유지하는 것은 점점 더 어려워지고 있으며, 비용과 에너지 소비 또한 더 많아지고 있다.
과거에는 데이터센터가 랙당 20킬로와트(kW) 수준에서 운영됐지만, 오늘날의 하이퍼스케일 시설은 랙당 135kW 이상의 전력을 지원한다. 이에 고밀도 랙에서 발생하는 열을 방출하는 일은 훨씬 더 어려워졌다. 따라서 AI 서버를 최상의 성능으로 유지하기 위해서는 효율성과 확장성을 동시에 확보할 수 있는 새로운 접근 방식이 필요하다.
이에 대한 핵심적인 해결책 중 하나는 수랭식 기술이다. 이 방식은 냉각기에 대한 의존도를 줄이고 보다 효율적인 열 배출을 가능하게 해 고성능, 고에너지 효율 AI 인프라의 차세대를 이끌고 있다.
엔비디아 GB200 NVL72와 엔비디아 GB300 NVL72는 수조 개 파라미터를 사용하는 거대 언어 모델(large language models, LLM) 추론의 까다로운 작업을 처리하도록 설계된 랙 스케일 수랭식 시스템이다. 이들 시스템의 아키텍처는 테스트 타임 스케일링(test-time scaling, TTS) 정확도와 성능을 위해 최적화돼 있어 에너지 비용과 열을 효율적으로 관리해 AI 추론 모델을 실행하는 데 이상적이다.
AI 데이터센터에서 전례 없는 수자원 효율성과 비용 절감 추진
과거에는 냉각만으로도 데이터센터 전체 전력 소비의 최대 40%를 차지했다. 이는 운영 비용과 에너지 수요를 동시에 줄일 수 있는 가장 중요한 효율화 대상 중 하나였다.
수랭식 냉각은 열을 발생원에서 직접 잡아내 비용과 에너지 사용을 줄인다. 다이렉트 투 칩(direct-to-chip) 수랭식 냉각은 공기를 매개체로 사용하는 대신, 냉각 시스템 순환 루프에서 열을 전달한다. 이 열은 액체 간 열교환기를 통해 냉각수 분배 장치(Coolant Distribution Unit, CDU)를 거쳐 순환되며, 최종적으로 시설 냉각 루프로 전달된다. 이 같은 열 전달 방식은 효율성이 훨씬 높기 때문에 데이터센터와 AI 팩토리는 더 높은 온도의 물로도 효과적인 운영이 가능해진다. 그 결과 다양한 기후 환경에서 기계식 냉각기의 사용을 줄이거나 아예 없앨 수 있다.
엔비디아 블랙웰 플랫폼에 구축된 엔비디아 GB200 NVL72 랙 스케일 수랭식 시스템은 탁월한 성능을 제공하는 동시에 에너지 비용과 발열의 균형을 맞춘다. 각 서버 랙에 전례 없는 컴퓨팅 밀도를 제공해 기존 공랭식 아키텍처보다 40배 높은 수익 잠재력, 30배 높은 처리량, 25배 높은 에너지 효율성, 300배 높은 수자원 효율성을 제공한다. 블랙웰 울트라(Ultra) 플랫폼에 구축된 최신 엔비디아 GB300 NVL72 시스템은 50배 높은 수익 잠재력과 35배 높은 처리량, 30배 높은 에너지 효율성을 자랑한다.
데이터센터는 연간 메가와트(MW)당 약 190만~280만 달러를 지출하며, 이 중 약 50만 달러는 냉각 관련 에너지와 물 사용 비용으로 쓰인다. GB200 NVL72 수랭식 시스템을 도입하면, 하이퍼스케일 데이터센터와 AI 팩토리는 최대 25배의 비용 절감을 누릴 수 있다. 이는 50MW 규모의 하이퍼스케일 데이터센터 기준 연간 400만 달러 이상의 비용 절감으로 이어진다.
이로써 데이터센터와 AI 팩토리 운영자들은 운영 비용을 절감하고 에너지 효율성 지표도 개선할 수 있다. 또한 기존 냉각 방식의 지속 가능하지 않은 물 사용량 없이도 AI 워크로드를 효율적으로 확장하는 미래지향적 인프라를 가져온다.
데이터센터 외부로 열 이동하기
컴퓨팅 밀도가 높아지고 AI 워크로드가 전례 없는 열 부하를 유발함에 따라, 데이터센터와 AI 팩토리는 인프라에서 열을 제거하는 방법을 재고해야 한다. CPU 중심의 예측 가능한 확장에 맞춰 설계된 기존의 열 제거 방식만으로는 이제 충분하지 않다. 오늘날 열을 시설 외부로 이동시키는 여러 방법 중 네 가지 주요 방식이 현재와 미래의 적용 사례에서 핵심적인 역할을 하고 있다.
변화하는 환경 속 핵심 냉각 방식들은 다음과 같다.
각 냉각 방식은 기후, 랙 밀도, 시설 설계, 지속 가능성 목표 등 다양한 요소에 따라 서로 다른 장점을 가진다. 수랭식 방식이 보편화되고 서버가 더 높은 온도의 물에서도 작동 가능하도록 설계되면서, 냉각 전략도 점점 더 효율적이고 환경 친화적인 방향으로 발전하고 있다. 이로 인해 에너지와 물 사용을 줄이면서도 더 높은 컴퓨팅 성능을 실현할 수 있게 된다.
AI 인프라에 최적화된 데이터센터
AI 워크로드가 기하급수적으로 증가함에 따라, 운영자는 고성능 AI와 에너지 효율을 위해 특별히 구축된 인프라로 데이터센터 설계를 재구상하고 있다. 전체 환경을 AI 전용 팩토리로 전환하거나 모듈식 구성 요소를 업그레이드하는 데 있어, 추론 성능을 최적화하는 일은 비용과 운영 효율성 관리에 매우 중요하다.
최고의 성능을 얻으려면 단순히 연산 성능이 높은 GPU만으로는 부족하다. 이 GPU들이 서로 광속에 가까운 속도로 통신할 수 있어야 한다.
엔비디아 NV링크(NVLink)는 이러한 통신 기능을 향상시켜 GPU가 120kW의 풀랙 전력 밀도로 최대 성능을 발휘하는 강력한 통합 처리 장치로 작동하도록 지원한다. 이러한 긴밀한 고속 통신은 데이터 전송 시간을 절약할 때마다 초당 더 많은 토큰과 더 효율적인 AI 모델을 확보할 수 있는 오늘날의 AI 작업에 매우 중요하다.
기존의 공랭식 방식은 같은 전력 수준에서는 한계를 드러낸다. 부족한 성능을 만회하기 위해선 데이터센터의 공기를 영하로 냉각하거나, 강풍처럼 빠르게 순환시켜야 하므로 공기만으로 밀집된 랙을 냉각하는 것은 갈수록 비현실적인 방법이 되고 있다.
공기보다 밀도가 약 1,000배 높은 액체를 활용한 수랭식 방식은 뛰어난 열용량과 열전도율 덕분에 열을 제거하는 데 탁월하다. 이 방식은 고성능 GPU에서 발생한 열을 효율적으로 이동시켜, 에너지 집약적이고 소음이 큰 냉각 팬에 대한 의존도를 줄인다. 따라서 냉각 시스템이 아닌 실제 연산 작업에 더 많은 전력이 할당될 수 있다.
수랭식 방식의 실제 적용
업계 전반의 혁신 기업들은 에너지 비용을 절감, 밀도 개선, AI 효율성 강화를 위해 수랭식 방식을 적극적으로 도입하고 있다.
클라우드 서비스 제공업체들도 최첨단 냉각과 전력 혁신 기술을 도입하고 있다. 차세대 아마존 웹 서비스(Amazon Web Services, AWS) 데이터센터는 공동 개발된 수랭식 솔루션을 통해 컴퓨팅 성능을 12% 향상시키며 에너지 소비를 최대 46%까지 줄이면서도 수자원 효율성은 그대로 유지하고 있다.
미래의 AI 인프라 냉각 방식
AI가 컴퓨팅 규모의 한계를 지속적으로 확장하고 있다. 이에 따라 냉각 기술의 혁신은 포스트 무어의 법칙(Moore’s law) 시대에 접어든 현재, 점점 더 심화되는 열 관리 문제를 해결하는 핵심적인 역할을 하게 될 것이다.
엔비디아는 쿨러칩스(COOLERCHIPS) 프로그램과 같은 이니셔티브를 통해 변화를 주도하고 있다. 쿨러칩스 프로그램은 미국 에너지부(Department of Energy)의 지원을 받아 차세대 냉각 시스템을 갖춘 모듈형 데이터센터를 개발하기 위한 프로그램이다. 이 시스템은 기존 공랭식 설계 대비 비용을 최소 5% 절감하며, 효율성을 20% 향상시킬 것으로 전망된다.
앞으로 데이터센터는 증가하는 AI 수요를 지원할 뿐만 아니라, 에너지와 수자원 효율성을 극대화하고 환경에 미치는 영향을 최소화하는 등 지속 가능한 방식으로 진화해야 한다. 고밀도 아키텍처와 첨단 수랭식 방식을 도입함으로써, 업계는 보다 효율적인 AI 기반 미래의 기틀을 마련하고 있다.