Arm, 새로운 Llama 3.2 LLM 통해 모든 곳에서 AI 추론 가속화 및 확장
2024년 09월 27일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기
d5a43d05bee2520a631d65c1201f86cd_1727375998_0388.png
 

글/ 이안 브랫(Ian Bratt), Arm 머신러닝 기술 부사장 겸 펠로우 


AI가 지속적으로 빠르게 진화함에 따라 새로운 버전의 대규모 언어 모델(LLM)이 정기적으로 등장하고 있습니다. AI의 잠재력과 기회를 최대한 활용하기 위해서는 클라우드부터 엣지에 이르기까지의 모든 곳에서 실행되는 LLM이 필요하지만, 이로 인해 상당한 컴퓨팅 및 에너지 수요가 발생하고 있습니다. 에코시스템은 이 문제를 해결하기 위해 힘을 모으고 있으며, 광범위한 AI 추론 워크로드를 대규모로 지원하고 사용자에게 새롭고 가속화된 AI 경험을 더 빠르게 제공하기 위해 보다 새롭고 효율적인 오픈 소스 LLM을 출시하고 있습니다. 


Arm은 Meta와의 협력을 통해 Arm CPU에서 최신 Llama 3.2 LLM을 지원하여 이러한 과제를 해결하기 위한 오픈 소스 혁신과 Arm 컴퓨팅 플랫폼의 강력한 조합을 보여주고 있습니다. Arm의 지속적인 투자와 이와 같은 새로운 LLM과의 협력은 에코시스템이 Arm CPU에서 AI를 실행하는 이점을 자동으로 확인할 수 있음을 의미하며, 이를 통해 개발자들이 AI 추론 워크로드를 타깃할 때 선택할 수 있는 플랫폼이 되었습니다. 


클라우드에서 엣지까지의 AI 성능 가속화

Llama 3.2 1B 및 3B와 같이 기본적인 텍스트 기반 생성형 AI 워크로드를 지원하는 소규모의 LLM의 가용성은 대규모 AI 추론을 구현하는 데 매우 중요합니다. Arm CPU에 최적화된 커널을 통해 Arm 기반의 모바일 디바이스에서 최신 Llama 3.2 3B LLM을 실행하면 처리 속도가 5배, 토큰 생성 속도가 3배 향상되어 생성 단계에서 초당 19.92개의 토큰을 처리할 수 있습니다. 이는 디바이스에서 AI 워크로드를 처리할 때 지연 시간이 줄어들고 전반적인 사용자 경험이 훨씬 빨라진다는 것을 의미합니다. 또한, 엣지에서 더 많은 AI를 처리할수록 클라우드를 오가는 데이터의 전력이 절약되어 에너지 및 비용 절감으로 이어집니다. 


엣지에서 소형 모델을 실행하는 것 외에도 클라우드에서 Llama 3.2 11B 및 90B와 같은 대형 모델도 실행할 수 있습니다. 11B 및 90B 모델은 Arm Neoverse V2의 데이터에서 알 수 있듯이, 텍스트와 이미지를 생성하는 클라우드의 CPU 기반 추론 워크로드에 매우 적합합니다. Arm 기반의 AWS Graviton4에서 11B 이미지 및 텍스트 모델을 실행하면 생성 단계에서 초당 29.3개의 토큰을 달성할 수 있습니다. 사람의 판독 속도가 초당 약 5토큰이라는 점을 고려할 때, 이는 훨씬 빠른 속도입니다. 


오픈 소스 혁신 및 에코시스템 협업으로 빠르게 확장되는 AI

Llama 3.2와 같은 최신 LLM을 공개적으로 사용할 수 있도록 하는 것은 매우 중요합니다. 오픈 소스 혁신은 놀라울 정도로 빠르게 진행되고 있습니다. 이전 버전에서 오픈 소스 커뮤니티는 24시간 이내에 최신 LLM을 Arm에서 실행할 수 있었습니다. 


Arm은 Arm Kleidi를 통해 소프트웨어 커뮤니티를 더욱 강화하고 있으며, 전체 AI 기술 스택이 이 최적화된 CPU 성능을 활용할 수 있도록 노력하고 있습니다. Kleidi는 애플리케이션 개발자가 별도의 통합 없이 모든 AI 프레임워크에서 Arm Cortex 및 Neoverse CPU의 AI 기능 및 성능을 활용할 수 있도록 지원합니다. 


최근 Kleidi와 PyTorch의 통합과 현재 진행 중인 ExecuTorch와의 통합으로, Arm은 클라우드에서 엣지에 이르기까지 개발자가 Arm CPU에서 원활한 AI 성능 이점을 누릴 수 있도록 지원하고 있습니다. Kleidi와 PyTorch의 통합으로 Llama 3 LLM을 실행할 때 Arm 기반 AWS Graviton 프로세서에서 첫 토큰 생성 시간이 2.5배 향상되었습니다. 


한편, 엣지에서는 Kleidi AI 라이브러리가 llama.cpp를 사용하여 새로운 Arm Cortex-X925 CPU에서 참조 구현 대비 Llama 3의 첫 토큰 생성 시간을 190% 가속화하고 있습니다. 


AI의 미래 구축하기

Arm 컴퓨팅 플랫폼의 유연성, 범용성 및 AI 기능을 Meta와 같은 업계 리더의 전문성과 결합하면 대규모 AI를 위한 새로운 기회가 열립니다. 사용자의 위치, 일정 및 선호도를 파악하여 사용자 대신 작업을 수행하는 온디바이스 LLM이든, 생산성을 높이고 직장에서 더 가치 있는 작업에 집중할 수 있는 엔터프라이즈 사용 사례이든, Arm 기술의 통합은 디바이스가 단순한 명령 및 제어 도구가 아니라 사용자의 전반적인 경험을 향상시키는 능동적인 비서가 되는 미래를 위한 길을 열어가고 있습니다. 


새로운 Llama 3.2 LLM을 통한 Arm CPU의 AI 성능 향상은 인상적이며, 이러한 개방형 협업은 최대한 가장 지속 가능한 방식으로 모든 곳에서 AI 혁신을 가능하게 하는 최선의 방법이라고 믿습니다. 새로운 LLM과 오픈 소스 커뮤니티 및 Arm의 컴퓨팅 플랫폼을 통해 2025년까지 1,000억 개 이상의 Arm 기반 디바이스가 AI를 지원할 수 있도록, Arm은 AI의 미래를 구축하고 있습니다.

그래픽 / 영상
많이 본 뉴스