
엔비디아(www.nvidia.co.kr )가 차세대 AI 플랫폼 엔비디아 블랙웰(NVIDIA Blackwell)이 새롭게 발표된 인퍼런스MAX(InferenceMAX) v1 벤치마크에서 최고 성능을 기록했다고 밝혔다. 이번 결과는 블랙웰이 AI 추론 분야에서 높은 처리량과 효율성, 비용 경쟁력을 동시에 입증한 성과로, 풀스택 하드웨어·소프트웨어 공동 설계를 기반으로 AI 데이터센터의 생산성과 투자수익률(ROI)을 크게 향상시켰음을 보여준다.
AI가 단발성 응답을 넘어 복잡한 추론으로 진화함에 따라, 추론에 대한 수요와 그 기반이 되는 경제성이 폭발적으로 증가하고 있다. 새로운 독립형 인퍼런스MAX v1 벤치마크는 처음으로 실제 시나리오 전반에 걸친 총 컴퓨팅 비용을 측정했다. 그 결과, 엔비디아 블랙웰 플랫폼이 압도적인 성능과 AI 팩토리를 위한 최고의 종합 효율성을 제공하며 시장을 석권했다.
엔비디아 GB200 NVL72 시스템에 5백만 달러를 투자하면 7천5백만 달러의 토큰 수익을 창출할 수 있다. 이는 15배의 ROI로, 추론의 새로운 경제학이라고 할 수 있다. 엔비디아의 하이퍼스케일과 고성능 컴퓨팅 부문 부사장 이안 벅(Ian Buck)은 “추론은 AI가 매일 가치를 창출하는 영역이다. 이번 결과는 엔비디아의 풀스택 접근 방식이 고객에게 대규모 AI 배포에 필요한 성능과 효율성을 제공함을 보여준다”고 말했다.
인퍼런스MAX v1 등장
인퍼런스MAX v1는 세미애널리시스(SemiAnalysis)가 발표한 새로운 벤치마크로, 블랙웰의 추론 성능 리더십을 다시 한번 입증하는 최신 사례다. 이 벤치마크는 인기 모델들을 주요 플랫폼에서 실행하고, 다양한 사용 사례에 대한 성능을 측정하며, 누구나 검증 가능한 결과를 공개한다.
이러한 벤치마크가 중요한 이유는 현대 AI는 단순한 속도만의 문제가 아닌 효율성과 대규모 운영 경제성이 핵심이기 때문이다. AI 모델이 단발성 응답에서 다단계 추론과 도구 활용 방식으로 전환됨에 따라, 쿼리당 생성되는 토큰 수가 크게 늘어나고, 이에 따라 연산 요구량이 급격히 증가하고 있다.
엔비디아의 오픈소스 협업은 오픈AI(OpenAI)(gpt-oss 120B), 메타(Meta)(라마 3 70B)(Llama 3 70B), 딥시크 AI(DeepSeek AI)(딥시크 R1)와 함께 진행되고 있다. 이를 통해 해당 커뮤니티 기반 모델들이 최첨단 추론 능력과 효율성을 끌어올리고 있음을 보여준다.
엔비디아는 이들 선도적인 모델 개발사와 오픈소스 커뮤니티와 협력해, 최신 모델들이 세계 최대 규모의 AI 추론 인프라에서 최적의 성능을 발휘할 수 있도록 보장한다. 이러한 노력은 공유된 혁신이 모두의 발전을 가속화하는 개방형 생태계 구축에 대한 의지를 반영하고 있다. 또한, 플래시인퍼(FlashInfer), SGLang, vLLM 커뮤니티와의 긴밀한 협업을 통해, 이러한 모델들이 대규모 환경에서 원활히 작동하도록 지원하는 커널과 런타임 개선이 공동으로 개발되고 있다.
소프트웨어 최적화로 지속적인 성능 향상 실현
엔비디아는 하드웨어, 소프트웨어 공동 설계 최적화를 통해 지속적으로 성능을 개선하고 있다. 엔비디아 텐서RT(TensorRT) LLM 라이브러리를 탑재한 엔비디아 DGX 블랙웰 B200 시스템에서의 초기 gpt-oss-120b 성능은 이미 업계 최고 수준이었다. 그러나, 엔비디아 팀과 커뮤니티는 오픈소스 거대 언어 모델(large language model, LLM)을 위해 텐서RT LLM을 대폭 최적화했다.
텐서RT LLM v1.0 출시는 대규모 AI 모델의 속도와 반응성을 한 단계 더 끌어올린 핵심적인 돌파구다. 고급 병렬화 기술을 적용한 이 버전은 B200 시스템과 엔비디아 NV링크 스위치(NVLink Switch)의 1,800GB/s 양방향 대역폭을 활용해 gpt-oss-120b 모델의 성능을 획기적으로 향상시킨다. 또한 새로 공개된 gpt-oss-120b-Eagle3-v2 모델은 한 번에 여러 토큰을 예측하는 추측 디코딩(speculative decoding) 방식을 도입했다. 이 기법은 지연을 줄이고 더 빠른 결과를 제공해, 사용자당 100토큰 처리 속도(Tokens Per Second, TPS)로 처리량을 3배 향상시켰다. 이로써 GPU당 처리 속도도 토큰 6,000개에서 30,000개로 대폭 향상됐다.
라마 3.3 70B와 같은 밀집형(dense) AI 모델은 많은 파라미터 수와 추론 시 모든 파라미터가 동시에 활용된다는 점 때문에 상당한 컴퓨팅 자원이 필요하다. 이 영역에서 엔비디아 블랙웰 B200은 인퍼런스MAX v1 벤치마크에서 새로운 성능 표준을 제시했다. 블랙웰은 GPU당 10,000 TPS 이상, 사용자당 상호작용성 기준으로 50 TPS를 제공하며, 이는 엔비디아 H200 GPU 대비 GPU 당 처리량이 4배 더 높다.
성능 효율성이 창출하는 가치
와트당 토큰 수, 백만 토큰당 비용, 사용자당 TPS와 같은 지표는 처리량만큼이나 중요하다. 실제로 전력이 제한된 AI 팩토리의 경우, 블랙웰은 이전 세대 대비 메가와트당 10배 높은 처리량을 제공하며, 이는 더 높은 토큰 수익으로 이어진다.

토큰당 비용은 AI 모델 효율성을 평가하는 핵심 지표로, 운영 비용에 직접적인 영향을 미친다. 엔비디아 블랙웰 아키텍처는 이전 세대 대비 백만 토큰당 비용을 15배까지 낮춰 상당한 비용 절감 효과를 거두며, AI 배포와 혁신을 더욱 확대했다.