

가트너(Gartner)가 오는 2030년까지 1조 개(1000B)의 파라미터를 보유한 거대언어모델(LLM)의 추론 비용이 2025년 대비 90% 이상 하락할 것이라는 전망을 내놓았다. 이번 분석에서 정의된 AI 토큰은 생성형 AI 모델이 처리하는 기본 데이터 단위로 약 3.5바이트에 해당하는 분량이다. 가트너는 이러한 비용 절감이 반도체 및 인프라의 효율성 개선과 모델 설계 혁신, 추론 특화 반도체의 확대, 그리고 특정 활용 사례에서의 엣지 디바이스 적용 확대 등에 의해 가능해질 것으로 보고 있다.
이러한 흐름에 따라 가트너는 2030년 시점의 LLM이 2022년 초기 동일 규모 모델과 비교했을 때 최대 100배까지 비용 효율성이 개선될 것으로 내다봤다. 이번 분석은 최첨단 반도체를 기반으로 모델을 처리하는 프런티어 시나리오와 다양한 기존 반도체를 혼합하여 활용하는 레거시 혼합 시나리오라는 두 가지 반도체 활용 환경을 기반으로 진행되었다. 분석 결과 레거시 혼합 시나리오는 연산 성능이 상대적으로 낮아 프런티어 시나리오에 비해 비용이 상당히 높은 것으로 나타났다.
하지만 가트너는 토큰 단가의 하락이 곧바로 기업의 AI 관련 비용 절감으로 이어지지는 않을 것이라고 분석했다. 고도화된 AI 기능일수록 구조적으로 더 많은 토큰을 요구하기 때문이다. 대표적인 사례인 AI 에이전트는 기존 챗봇과 비교해 작업당 최소 5배에서 최대 30배 더 많은 토큰을 필요로 하며 수행 가능한 작업 범위도 훨씬 넓다. 따라서 토큰의 개별 단가는 낮아지더라도 전체적인 사용량 증가 속도가 이를 앞지르면서 기업이 부담해야 할 전체 추론 비용은 오히려 증가할 가능성이 크다.
그림 1. 가트너 생성형 AI 추론 비용 시나리오 전망
윌 소머(Will Sommer) 가트너 시니어 디렉터 애널리스트는 "제품 총괄 책임자는 범용 토큰 가격의 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다"며 "기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만 고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소한 상황이다"라고 설명했다. 또한 현재 저렴한 토큰 비용에 의존해 아키텍처의 비효율성을 방치하는 기업은 향후 에이전트 기반 AI 확장 단계에서 명확한 한계에 직면하게 될 것이라고 덧붙였다.
결국 가트너는 다양한 모델 포트폴리오 전반에서 워크로드를 효율적으로 관리하는 멀티 모델 오케스트레이션 전략에 기업의 경쟁력이 달려 있다고 전망했다. 반복적이고 빈도가 높은 업무는 효율적인 소형 모델이나 도메인 특화 언어 모델로 처리하여 비용 대비 성능을 극대화해야 한다고 조언했다. 반면 비용이 높은 프런티어급 모델의 추론은 엄격히 제한하여 고부가가치의 복잡한 추론 작업에만 선택적으로 활용하는 지혜가 필요하다고 밝혔다.