
챗지피티(ChatGPT)와 같은 세계에서 가장 까다로운 AI 모델을 구동하기 위해서는 수십만 개의 GPU가 한 몸처럼 움직여야 한다. 하지만 시스템 규모가 커질수록 이들을 연결하는 네트워크가 성능의 결정적 병목 구간이 되고 있다. AMD는 이러한 한계를 극복하기 위해 OpenAI, 마이크로소프트 등 업계 리더들과 협력하여 차세대 네트워크 프로토콜인 ‘다중 경로 신뢰 연결(MRC, Multipath Reliable Connection)’을 발표하고 이를 오픈 컴퓨트 프로젝트(OCP)에 기부했다.
대규모 AI 학습 환경에 최적화된 회복 탄력성 확보
기존의 단일 경로 네트워크 모델은 데이터 전송 시 특정 구간에 정체가 발생하거나 작은 장애만 생겨도 전체 학습 프로세스가 지연되는 취약점이 있었다. 반면 MRC는 데이터를 여러 경로로 동시에 분산 전송함으로써 혼잡 지점을 제거하고 지연 시간의 변동성을 최소화한다. 특히 장애 발생 시 거의 실시간으로 트래픽을 우회시키는 능력을 갖춰, 네트워크가 일종의 ‘충격 흡수 장치’ 역할을 수행하게 한다. 이는 피크 대역폭보다 ‘실제 가동 중인 가속기들이 얼마나 연속적으로 생산성을 유지하는가’가 중요한 대규모 AI 환경에서 실질적인 성능 향상을 의미한다.
AMD는 단순히 이론적인 사양을 정의하는 데 그치지 않고, 선도적인 클라우드 제공업체와의 테스트 클러스터 배포를 통해 MRC의 실효성을 검증했다. AMD는 MRC 사양의 공동 저자로 참여했을 뿐만 아니라, 실제 환경에서 성능을 높여주는 고급 혼잡 제어 기술을 직접 기여했다. 크리슈나 도다파네니(Krishna Doddapaneni) AMD 부사장은 “GPU와 CPU가 계산 능력을 주도하고 있지만, AI 확장의 실제 병목은 네트워크에 있다”며 “AMD의 프로그래밍 가능 기술은 MRC와 같은 혁신을 이론적 수치를 넘어 실제 현장의 성능으로 신속하게 전환할 수 있게 해준다”고 밝혔다.
프로그래밍 가능한 네트워크로 여는 800G 시대의 서막
AMD의 차별화된 경쟁력은 하드웨어와 소프트웨어 모두에서 구현되는 ‘풀 프로그래밍 기능’에 있다. 실제로 현재의 MRC 표준은 AMD 펜산도(Pensando) 폴라라 400 AI NIC의 유연한 프로그래밍 환경에서 검증된 기술이 발전하여 완성된 것이다. 업계에서 가장 먼저 400G NIC에 MRC를 구현한 AMD는 이를 기반으로 차세대 800G AI NIC인 ‘불카노(Vulcano)’로의 매끄러운 기술 전화를 가속화하고 있다.
이번 MRC 공개는 AI 인프라를 보다 개방적이고 적응력 높으며 실용적인 토대 위에 올려놓는 중요한 이정표가 될 전망이다. AMD는 글로벌 파트너사들과의 협력을 통해 실험실 수준의 혁신을 실제 생산 현장에 바로 투입할 수 있는 준비된 인프라로 변모시키고 있으며, 이를 통해 대규모 GPU 클러스터 간의 연결 신뢰성을 획기적으로 높여 모델 효율성을 극대화할 계획이다.