
마이크로소프트가 대규모 AI 모델 추론의 경제성과 효율을 동시에 끌어올리기 위한 차세대 AI 추론 가속기 ‘마이아 200(Maia 200)’을 공개했다. 마이아 200은 애저(Azure) 데이터센터 환경에 최적화된 전용 가속기로, AI 모델 구동에 필요한 성능·전력·비용 균형을 근본적으로 개선하는 것을 목표로 설계됐다.
마이아 200은 TSMC의 3nm 공정을 기반으로 제작됐으며, 1,400억 개 이상의 트랜지스터를 집적한 대규모 SoC 구조를 채택했다. 특히 216GB HBM3e 메모리와 초당 7TB 대역폭의 메모리 하위 시스템을 새롭게 설계해 대규모 토큰 생성과 추론 처리에서 발생하는 데이터 병목을 최소화했다. 여기에 네이티브 FP8 및 FP4 텐서 연산을 지원하는 연산 유닛과 데이터 이동 엔진을 결합해, 거대 언어 모델 추론에 최적화된 성능을 제공한다.
성능 지표 역시 주목할 만하다. 마이아 200은 FP4 기준으로 3세대 아마존 트레이니움 대비 약 3배 높은 처리량을 기록했으며, FP8 기준에서도 구글 7세대 TPU를 상회하는 성능을 보였다. 이를 통해 마이크로소프트는 자사 최신 세대 하드웨어 대비 달러당 성능을 약 30% 개선했다고 밝혔다.
▲ 주요 AI 가속기별 성능 지표(Industry-leading capability)
마이아 200은 OpenAI의 최신 GPT-5.2 모델을 포함한 다양한 대규모 모델을 지원하며, 마이크로소프트 파운드리와 마이크로소프트 365 코파일럿 등 주요 AI 서비스의 추론 효율을 높이는 핵심 인프라로 활용될 예정이다. 또한 사내 슈퍼인텔리전스 팀에서는 합성 데이터 생성과 강화 학습 파이프라인에 마이아 200을 투입해 차세대 모델 고도화를 추진할 계획이다.
마이크로소프트는 칩 단위 성능뿐 아니라 데이터센터 전체를 아우르는 엔드투엔드 설계를 마이아 200의 핵심 차별화 요소로 제시했다. 표준 이더넷 기반의 2계층 스케일업 네트워크와 맞춤형 전송 계층을 도입해 독점 패브릭 없이도 대규모 클러스터 환경에서 일관된 성능을 확보했다. 각 가속기는 초당 2.8TB의 양방향 대역폭을 지원하며, 최대 6,144개 가속기를 연결한 클러스터에서도 전력 효율과 TCO 절감을 동시에 달성하도록 설계됐다.
개발 및 배포 과정 역시 대폭 단축됐다. 마이크로소프트는 프리 실리콘 단계에서부터 LLM 연산·통신 패턴을 모델링하고, 칩·네트워크·시스템 소프트웨어를 통합 검증하는 방식을 적용했다. 그 결과 칩 입고 이후 수일 내 실제 모델 구동에 성공했으며, 데이터센터 배치까지의 소요 기간을 기존 대비 절반 이하로 줄였다.
마이아 200은 미국 중부 아이오와 지역 데이터센터를 시작으로 단계적으로 배포되며, 향후 애리조나 등 주요 애저 리전에 확대 적용될 예정이다. 마이크로소프트는 다세대 로드맵을 기반으로 마이아 가속기 프로그램을 지속 확장해, 대규모 AI 시대에 요구되는 성능·효율·확장성의 새로운 기준을 제시한다는 전략이다.
한편, 개발자와 연구기관을 위한 ‘마이아 200 SDK’ 프리뷰도 함께 공개됐다. 해당 SDK는 파이토치 지원과 Triton 컴파일러, 시뮬레이터 및 비용 계산기를 포함해, 개발 초기 단계부터 AI 추론 워크로드의 성능과 운영 효율을 정밀하게 최적화할 수 있도록 지원한다.