엔비디아, AI 팩토리 통해 데이터센터와 차세대 AI 시대 혁신
2025년 03월 25일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기
4b325fc191fd4dd1e4e8e85f328b607a_1742837058_0447.png
 

엔비디아(www.nvidia.co.kr )가 미국 새너제이에서 열린 GTC에서 새로운 AI 추론 시대를 맞이해 AI 팩토리 구축을 지원하고 있다고 밝혔다. 


AI는 새로운 산업 혁명을 촉진하고 있으며, 이는 AI 팩토리에 의해 주도된다. 


전통적인 데이터 센터와 달리 AI 팩토리는 데이터를 저장하고 처리하는 것 이상의 기능을 수행한다. AI 팩토리는 대규모로 인텔리전스를 만들어 원시 데이터를 실시간 인사이트로 변환한다. 이를 통해 전 세계의 기업과 국가는 가치 창출의 속도를 극적으로 가속화해 AI를 장기 투자에서 즉각적인 경쟁 우위의 원동력으로 전환하고 있다. 오늘날 맞춤형 AI 팩토리에 투자하는 기업이 내일의 혁신, 효율성 그리고 시장 차별화를 선도할 것이다. 


전통적인 데이터센터는 일반적으로 다양한 워크로드를 처리하고 일반 목적의 컴퓨팅을 위해 구축되지만, AI 팩토리는 AI에서 가치를 창출하도록 최적화돼 있다. AI 팩토리는 데이터 수집에서 훈련, 미세 조정, 그리고 가장 중요한 고용량 추론에 이르는 전체 AI 라이프사이클을 조율한다. 


AI 팩토리에서 인텔리전스는 부산물이 아니라 핵심 생산물이다. 이 인텔리전스는 AI 토큰 처리량으로 측정되며, 이는 의사 결정과 자동화 그리고 완전히 새로운 서비스로 이어지는 실시간 예측을 의미한다. 


기존 데이터 센터가 당장 사라지지는 않겠지만, 이들이 AI 팩토리로 진화할지 아니면 AI 팩토리에 연결될지는 기업의 비즈니스 모델에 따라 달라진다. 


기업이 어떤 방식으로 적응하든, 엔비디아가 지원하는 AI 팩토리는 이미 대규모로 인텔리전스를 생산하고 있으며, AI의 구축, 정제, 배포 방식을 혁신하고 있다. 


컴퓨팅 수요를 이끄는 스케일링 법칙

지난 몇 년 동안 AI는 대형 모델 훈련을 중심으로 발전해왔다. 그러나 최근 AI 추론 모델의 급증으로 인해 추론이 AI 경제의 주요 원동력이 됐다. 그 이유를 보여주는 3가지 주요 스케일링 법칙은 다음과 같다:

  • 사전 훈련 스케일링: 더 큰 데이터세트와 모델 파라미터는 예측 가능한 인텔리전스 향상을 가져오지만, 이 단계에 도달하기 위해서는 숙련된 전문가, 데이터 큐레이션, 컴퓨팅 자원에 대한 상당한 투자가 필요하다. 지난 5년 동안 사전 훈련 스케일링은 컴퓨팅 요구 사항을 5천만 배까지 증가시켰다. 그러나 모델이 훈련된 후에는 다른 사람들이 이를 기반으로 구축하는 데 필요한 장벽이 크게 낮아진다.
  • 사후 훈련 스케일링: 특정 실제 응용 프로그램을 위해 AI 모델을 미세 조정할 때, AI 추론 중에 사전 훈련보다 30배 더 많은 컴퓨팅 자원이 필요하다. 조직이 기존 모델을 고유한 필요에 맞게 조정함에 따라 AI 인프라에 대한 누적 수요가 급증한다.
  • 테스트 타임 스케일링(test-time scaling, TTS): 에이전틱 AI(Agentic AI)나 물리 AI와 같은 고급 AI 응용 프로그램은 반복적 추론을 요구하며, 모델이 최상의 응답을 선택하기 전에 여러 가능한 응답을 탐색한다. 이는 전통적인 추론보다 최대 100배 더 많은 컴퓨팅 자원을 소모한다. 


기존의 데이터 센터는 이러한 새로운 AI 시대에 맞춰 설계되지 않았다. AI 팩토리는 이러한 막대한 컴퓨팅 수요를 최적화하고 지속하기 위해 목적에 맞게 구축됐으며, AI 추론과 배포를 위한 이상적인 경로를 제공한다. 


토큰으로 산업과 경제 재편

전 세계적으로 정부와 기업들이 경제 성장, 혁신, 효율성을 촉진하기 위해 AI 팩토리 구축 경쟁에 나서고 있다. 


유럽연합고성능컴퓨팅공동사업(European High-Performance Computing Joint Undertaking, EuroHPC)은 최근 17개 EU 회원국과 협력해 7개의 AI 팩토리를 구축할 계획을 발표했다. 


이는 전 세계적으로 AI 팩토리에 대한 투자 물결이 이어지는 가운데 이루어졌으며, 기업과 국가들이 모든 산업과 지역에서 AI 기반 경제 성장을 가속화하고 있음을 보여준다.

  • 인도: 요타 데이터 서비스(Yotta Data Services)는 엔비디아와 협력해 샥티 클라우드 플랫폼(Shakti Cloud Platform)을 출시했다. 이를 통해 고급 GPU 자원에 대한 접근을 민주화하고 있다. 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어와 오픈 소스 도구를 통합해 요타 데이터 서비스는 AI 개발과 배포를 위한 원활한 환경을 제공한다.
  • 일본: GMO 인터넷 그룹(GMO Internet Group), 하이레소(Highreso), KDDI, 루틸레아(Rutilea), 사쿠라 인터넷(SAKURA internet) 등 주요 클라우드 제공업체들이 엔비디아 기반 AI 인프라를 구축해 로보틱스, 자동차, 헬스케어, 통신과 같은 산업을 변화시키고 있다.
  • 노르웨이: 텔레노어(Telenor)는 엔비디아 기반 AI 팩토리를 구축해 북유럽 지역 전반에 걸쳐 AI 채택을 가속화하고 있으며, 인력 재교육과 지속 가능성에 중점을 두고 있다. 


이러한 이니셔티브는 AI 팩토리가 통신과 에너지와 견줄 수 있는 필수 국가 인프라로 빠르게 자리 잡고 있다는 점을 보여준다. 


AI 팩토리 내부에서 제조되는 인텔리전스

파운데이션 모델, 안전한 고객 데이터, AI 도구는 AI 팩토리를 가동하는 원자재를 제공한다. 여기서 추론 서비스, 프로토타입 제작, 미세 조정이 이루어져 강력하고 맞춤화된 모델이 생산 준비를 마친다. 


이 모델들이 실제 응용 프로그램에 배포되면, 새로운 데이터로부터 지속적으로 학습하며, 이는 데이터 플라이휠(flywheel)을 사용해 저장되고 정제돼 시스템에 다시 공급된다. 이 최적화 사이클은 AI가 적응적이고 효율적이며 지속적으로 개선되도록 보장하고, 기업 인텔리전스를 전례 없는 규모로 추진한다.


4b325fc191fd4dd1e4e8e85f328b607a_1742836782_2612.png

엔비디아 기반 AI 팩토리는 대규모로 기업 인텔리전스를 제조하는 데 최적화돼 있다. 


풀스택 엔비디아 AI를 통해 얻는 AI 팩토리의 이점

엔비디아는 실리콘부터 소프트웨어까지 모든 계층이 대규모로 훈련, 미세 조정, 추론을 위해 최적화된 완전하고 통합된 AI 팩토리 스택을 제공한다. 이 풀스택 접근 방식은 기업이 비용 효율적이고 고성능이며 AI의 기하급수적 성장에 대비할 수 있는 AI 팩토리를 배포할 수 있도록 보장한다. 


엔비디아는 생태계 파트너와 함께 풀스택 AI 팩토리를 위한 빌딩 블록을 만들었으며, 이를 통해 다음과 같은 기능을 제공한다:

  • 강력한 컴퓨팅 성능
  • 고급 네트워킹
  • 인프라 관리와 워크로드 조정
  • 가장 큰 AI 추론 생태계
  • 스토리지와 데이터 플랫폼
  • 설계와 최적화를 위한 블루프린트
  • 참조 아키텍처
  • 모든 기업을 위한 유연한 배포 


강력한 컴퓨팅 성능

모든 AI 팩토리의 핵심은 컴퓨팅 파워이다. 엔비디아는 엔비디아 호퍼(Hopper)부터 엔비디아 블랙웰(Blackwell)까지, 이 새로운 산업 혁명을 위한 세계에서 가장 강력한 가속 컴퓨팅을 제공한다. 엔비디아 블랙웰 울트라(Ultra) 기반의 GB300 NVL72 랙 스케일 솔루션을 통해 AI 팩토리는 AI 추론을 위해 최대 50배의 출력을 달성할 수 있으며, 이는 효율성과 규모의 새로운 기준을 설정한다. 


엔비디아 DGX SuperPOD은 기업을 위한 턴키 AI 팩토리의 대표적인 사례로, 엔비디아 가속 컴퓨팅의 최선을 통합하고 있다. 엔비디아 DGX 클라우드는 클라우드에서 고성능의 엔비디아 가속 컴퓨팅을 제공하는 AI 팩토리를 제공한다. 


글로벌 시스템 파트너들은 엔비디아 가속 컴퓨팅을 기반으로 고객을 위한 풀스택 AI 팩토리를 구축하고 있으며, 이제 엔비디아 GB200 NVL72과 GB300 NVL72 랙 스케일 솔루션도 포함된다. 


고급 네트워킹

대규모로 인텔리전스를 이동시키기 위해서는 전체 AI 팩토리 스택 전반에 걸쳐 원활한 고성능 연결성이 필요하다. 엔비디아 NV링크(NVLink)와 NV링크 스위치(NVLink Switch)는 고속의 다중 GPU 통신을 가능하게 해 노드 내 또는 노드 간 데이터 이동을 가속화한다. 


AI 팩토리는 또한 견고한 네트워크 백본을 요구한다. 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand), 엔비디아 스펙트럼-X 이더넷(Spectrum-X Ethernet) 그리고 엔비디아 블루필드(BlueField) networking  플랫폼은 병목 현상을 줄여 대규모 GPU 클러스터 간의 효율적인 고처리량 데이터 교환을 보장한다. 이러한 엔드 투 엔드 통합은 AI 워크로드를 백만 GPU 수준으로 확장하는 데 필수적이며, 훈련과 추론에서 획기적인 성능을 가능하게 한다. 


인프라 관리와 워크로드 오케스트레이션

기업들은 AI 인프라의 강력한 성능을 하이퍼스케일러의 민첩성, 효율성, 규모로 활용할 수 있는 방법이 필요하지만, 비용, 복잡성, IT 전문 지식에 대한 부담은 줄여야 한다. 


엔비디아 런:ai(Run:ai)를 통해 조직은 AI 워크로드 오케스트레이션과 GPU 관리를 원활하게 수행할 수 있으며, 이를 통해 자원 활용을 최적화하고 AI 실험을 가속화하며 워크로드를 확장할 수 있다. 엔비디아 미션 컨트롤(Mission Control) 소프트웨어는 엔비디아 런:ai 기술을 포함하고 있으며, 워크로드에서 인프라까지 AI 팩토리 운영을 간소화하고, 풀 스텍 인텔리전스를 제공해 세계적 수준의 인프라 복원력을 보장한다.


4b325fc191fd4dd1e4e8e85f328b607a_1742836592_4338.png

엔비디아 미션 컨트롤은 AI 팩토리 스택 전반에 걸쳐 워크플로우를 간소화한다. 


가장 큰 AI 추론 생태계

AI 팩토리는 데이터를 인텔리전스로 변환할 수 있는 적합한 도구가 필요하다. 엔비디아 AI 추론 플랫폼은 엔비디아 텐서RT(TensorRT) 생태계, 엔비디아 다이나모(Dynamo)엔비디아 NIM 마이크로서비스를 포함하며, 모두 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼의 일환으로 제공되거나 곧 포함 예정이다. 이 플랫폼은 AI 가속 라이브러리와 최적화된 소프트웨어의 가장 포괄적인 모음을 제공하며, 최고의 추론 성능, 초저지연 시간, 높은 처리량을 보장한다. 


스토리지와 데이터 플랫폼

데이터는 AI 애플리케이션의 연료이지만, 기업 데이터의 빠르게 성장하는 규모와 복잡성은 이를 효율적으로 활용하는 데 많은 비용과 시간이 소요된다. AI 시대에 성공하려면, 기업들은 데이터의 잠재력을 완전히 발휘할 수 있어야 한다. 


엔비디아 AI 데이터 플랫폼(AI Data Platform)은 요구 사항이 높은 AI 추론 워크로드를 위한 맞춤형 참조 설계이다. 이는 기업 데이터가 복잡한 쿼리에 대해 추론하고 응답할 수 있도록 지원하는 AI 데이터 플랫폼을 구축하는 데 필요한 기반을 제공한다. 또한, 엔비디아 인증 스토리지(NVIDIA-Certified Storage) 파트너들은 맞춤형 AI 데이터 플랫폼을 구축하기 위해 협력하고 있으며, 이를 통해 기업 데이터는 보다 효율적으로 활용될 수 있다. 


설계와 최적화를 위한 블루프린트

AI 팩토리 설계와 운영을 위한 엔비디아 옴니버스(Omniverse) 블루프린트를 활용하면, 엔지니어들이 디지털 트윈을 사용해 AI 팩토리 인프라를 설계, 테스트, 최적화한 후 배포할 수 있다. 이를 통해 리스크와 불확실성을 줄이고, 비용이 많이 드는 다운타임을 예방할 수 있다. 


1기가와트 규모의 AI 팩토리에서 하루 다운타임은 1억 달러 이상의 비용이 발생할 수 있다. 이 블루프린트는 초기 단계에서 복잡성을 해결하고, IT, 기계, 전기, 전력, 네트워크 엔지니어링 등 개별적으로 운영되던 팀들이 병렬로 협업할 수 있도록 지원한다. 이를 통해 기업은 배포 속도를 높이고 운영 안정성을 보장할 수 있다. 


레퍼런스 아키텍처

엔비디아 엔터프라이즈 레퍼런스 아키텍처(Enterprise Reference Architecture)와 엔비디아 클라우드 파트너 참조 아키텍처(Cloud Partner Reference Architecture)는 AI 팩토리를 설계하고 배포하는 파트너를 위한 로드맵을 제공한다. 이를 통해 기업과 클라우드 제공업체가 엔비디아 인증 시스템(NVIDIA-Certified System)과 엔비디아 AI 소프트웨어 스택, 파트너 생태계를 기반으로 확장 가능하고 고성능이며 안전한 AI 인프라를 구축하도록 돕는다.


4b325fc191fd4dd1e4e8e85f328b607a_1742836352_258.png

엔비디아 레퍼런스 아키텍처에서 구축된 엔비디아 풀스택 AI 팩토리 (*NVIS는 NVIDIA infrastructure specialists를 의미한다) 


AI 팩토리 스택의 모든 계층은 효율적인 컴퓨팅에 의존해 증가하는 AI 수요를 충족해야 한다. 엔비디아 가속 컴퓨팅은 스택 전반에 걸쳐 기반을 제공하며, 와트당 최고 성능을 실현해 AI 팩토리가 최대 에너지 효율로 운영될 수 있도록 지원한다. 에너지 효율적인 아키텍처와 액체 냉각 기술을 통해 기업들은 에너지 비용을 절감하면서 AI를 확장할 수 있다. 


모든 기업을 위한 유연한 배포

엔비디아의 풀스택 기술을 통해 기업들은 고객의 IT 소비 모델과 운영 요구 사항에 맞춰 AI 팩토리를 손쉽게 구축하고 배포할 수 있다. 


일부 기업들은 데이터와 성능을 완전히 제어하기 위해 온프레미스 AI 팩토리를 선택하며, 다른 기업들은 확장성과 유연성을 위해 클라우드 기반 솔루션을 활용한다. 또한, 많은 기업들이 신속한 AI 팩토리 배포를 위해 글로벌 시스템 파트너와 협력해 사전 통합된 솔루션을 도입하고 있다.


4b325fc191fd4dd1e4e8e85f328b607a_1742836276_582.png

DGX GB300은 AI 추론 시대를 위해 설계된 기업을 위한 최고 성능의 대규모 AI 팩토리 인프라이다. 


온프레미스

엔비디아 DGX SuperPOD은 AI 팩토리를 위한 턴키 인프라 솔루션으로, 가장 까다로운 AI 훈련과 추론 워크로드를 처리할 수 있도록 확장 가능한 가속 인프라를 제공한다. AI 컴퓨팅, 네트워크 패브릭, 스토리지, 엔비디아 미션 컨트롤 소프트웨어를 최적화된 설계로 통합한다. 이를 통해 기업들이 AI 팩토리를 몇 개월이 아닌 몇 주 만에 구축하고 운영할 수 있도록 지원하고 최고 수준의 가동 시간, 복원력, 자원 활용도를 보장한다. 


AI 팩토리 솔루션은 또한 엔비디아 글로벌 엔터프라이즈 기술 파트너 생태계를 통해 제공되며, 엔비디아 인증 시스템을 기반으로 한다. 이를 통해 업계를 선도하는 하드웨어와 소프트웨어 기술과 데이터센터 시스템 전문성, 액체 냉각 혁신 기술이 결합된다. 이는 기업들이 AI 프로젝트의 리스크를 최소화하고 AI 팩토리 구축에 대한 투자 회수를 가속화할 수 있도록 돕는다. 


이들 글로벌 시스템 파트너는 엔비디아 레퍼런스 아키텍처를 기반으로 한 풀스택 솔루션을 제공한다. 이 솔루션은 엔비디아 가속 컴퓨팅, 고성능 네트워킹 그리고 AI 소프트웨어가 통합된 형태로 기업들이 AI 팩토리를 성공적으로 구축하고 대규모 AI 인텔리전스를 구현할 수 있도록 지원한다. 


클라우드

AI 팩토리를 구축하려는 기업을 위해 엔비디아 DGX 클라우드(DGX Cloud)는 주요 클라우드에서 AI 애플리케이션을 개발, 맞춤화, 배포할 수 있는 통합 플랫폼을 제공한다. DGX 클라우드의 모든 계층은 엔비디아에 의해 최적화되고 완전히 관리되며, 클라우드에서 엔비디아 AI의 최고 성능을 제공한다. 또한 엔터프라이즈급 소프트웨어와 대규모 연속 클러스터를 주요 클라우드 공급업체에서 제공해 가장 까다로운 AI 훈련 워크로드에도 적합한 확장 가능한 컴퓨팅 리소스를 지원한다. 


DGX 클라우드는 또한 하이브리드와 멀티 클라우드 환경에서 AI 토큰을 고속으로 처리할 수 있는 동적이고 확장 가능한 서버리스 추론 플랫폼을 포함하고 있다. 이로써 인프라의 복잡성을 크게 줄이고 운영 부담을 완화하게 된다. 


엔비디아는 하드웨어, 소프트웨어, 생태계 파트너, 레퍼런스 아키텍처를 통합한 풀스택 플랫폼을 제공한다. 이를 통해 기업들이 비용 효율적이고 확장 가능하며 고성능을 갖춘 AI 팩토리를 구축하고 다가오는 산업 혁명 시대를 대비할 수 있도록 돕고 있다. 


여기서 엔비디아 AI 팩토리에 대해 더 자세히 알아볼 수 있다. 

여기서 소프트웨어 제품 정보와 관련된 내용을 참조할 수 있다.

그래픽 / 영상
많이 본 뉴스