생성형 AI의 컴퓨팅 및 지속가능성 과제 해결

2023년 04월 04일

사람이 만든 콘텐츠를 모방할 수 있는 생성형 AI는 일상 생활의 여러 측면을 변화시킬 수 있는 놀라운 기회를 제공한다. 그러나 기술이 빠르게 진화함과 동시에 데이터 센터에서 성공적으로 AI를 활용하는데 있어 필수적인 컴퓨팅의 복잡성도 함께 노출한다.

인텔은 모든 사람이 기술에 접근하고 기술을 쉽게 확장할 수 있도록 미래를 위해 많은 투자를 하고 있다. 인텔의 리더들은 신뢰, 투명성, 선택권을 기반으로 구축된 개방형AI 생태계를 지원하기 위해 업계 전반의 파트너와 활발하게 협력하고 있다.

뛰어난 성능의 오픈 소스 생성형 AI 도입

생성형 AI는 GPT-3 및 DALL-E와 같은 언어 모델을 활용해 왔다. 다만, 인간처럼 대화할 수 있는 생성형 AI 챗봇인 챗GPT에 대한 관심이 증폭되면서, 기존 데이터 센터 아키텍처의 장애물에 대해 주목하게 됐다. 또한 인공지능의 잠재력을 최대한 발휘할 수 있는 하드웨어 및 소프트웨어 솔루션의 필요성이 커졌다. 개방형 접근 방식과 이기종 컴퓨팅에 기반한 생성형 AI는 최상의 솔루션을 보다 광범위하게 접근하고 비용 효율적으로 배포할 수 있도록 지원한다. 개방형 생태계는 개발자가 전력, 가격, 성능에 우선순위를 두면서 어디서나 AI를 구축하고 배포할 수 있도록 지원해 생성형 AI의 잠재력을 실현한다.

인텔은 복잡성을 제거하면서 인기 있는 오픈 소스 프레임워크, 라이브러리 및 툴을 최적화해 최고의 하드웨어 성능을 이끌어낼 수 있는 생성형AI를 지원하기 위해 노력하고 있다. 머신 러닝을 위한 최고의 오픈 소스 라이브러리인 허깅 페이스(Hugging Face)는 현재 시중에 나와 있는 어떤 GPU보다 인텔의 AI 하드웨어 가속기에서 더 빠른 추론이 가능하다는 테스트 결과를 공유했다. 1,760억 개의 매개 변수(parameter)를 가진 BLOOMZ 모델(트랜스포머 기반 다국어 대규모 언어 모델(LLM))에 대한 추론으로 인텔의 하바나 가우디2가 엔비디아 A100-80G보다 20% 더 빠르게 실행된다. BLOOMZ는 46개 언어와 13개 프로그래밍 언어가 처리 가능하도록 설계됐으며 완벽히 투명하게 만들어졌다. 모델 훈련의 모든 리소스는 전 세계 연구자와 엔지니어가 사용할 수 있으며 문서화되어 있다.

70억 개라는 더 적은 매개 변수를 가진 BLOOMZ 모델을 실행할 경우, 가우디2는 A100-80G보다 3배 빠른 성능을 제공하며, 1세대 하바나 가우디는 A100-80G보다 가격 대비 성능 면에서 확실한 이점을 제공한다. 허깅 페이스 옵티멈 하바나 라이브러리를 사용할 시 가우디 가속기에서 최소한의 코드 변경으로 대규모 LLM을 간편하게 배포할 수 있다.

인텔 랩 연구원들은 가우디2와 최근 언어 모델에 대한 벤치마크로 제안된 LMentry를 활용해 제로 샷 설정에서 BLOOMZ를 평가했다. BLOOMZ의 정확도는 GPT-3와 유사하게 모델 크기에 따라 확장되며, 아래 그래픽에서 볼 수 있듯이 가장 큰 176B BLOOMZ 모델은 비슷한 크기의 GPT-3 모델보다 성능이 뛰어나다.

하바나 가우디 가속기 사용해 100만 개의 LMentry 프롬프트에서

BLOOMZ 모델(최대 176억 개의 파라미터)에 의해 생성된 언어 출력의 자동 평가.²

또한, 허깅 페이스는 첨단 텍스트-이미지 생성을 위한 또 다른 생성 AI 모델이자 널리 사용되는 DALL-E 이미지 생성기의 오픈 액세스 대안인 스테빌리티 AI(Stability AI)의 스테이블 디퓨전(Stable Diffusion)이 인텔 어드밴스드 매트릭스 익스텐션(Intel AMX)이 내장된 4세대 인텔 제온 스케일러블 프로세서에 코드 변경 없이 평균 3.8배 더 빠르게 실행된다고 발표했다. 또한 머신 러닝을 위한 사용자 지정 형식인 Bfloat16과 함께 파이토치 인텔 익스텐션을 사용하면 자동 혼합 정밀도가 2배 더 빨라지고 지연 시간이 5초로 줄어들어 초기 기준선인 32초보다 거의 6.5배 더 빨라진다. 허깅 페이스 웹사이트에서 인텔 CPU(4세대 제온 프로세서)에서 실행되는 실험적인 안정적 확산 데모에서 직접 프롬프트를 사용해 볼 수 있다.

에마드 모스타크(Emad Mostaque) 스테빌리티 AI 설립자 겸 최고경영자(CEO)는 "스테빌리티에서는 모든 사람이 스스로 AI 기술을 구축할 수 있도록 지원하고자 한다"며 “인텔은 4세대 사파이어 래피즈 CPU부터 가우디와 같은 가속기에 이르기까지 이기종 제품에서 스테이블 확산 모델을 효율적으로 실행할 수 있도록 지원했으며, 따라서 AI의 대중화를 위한 훌륭한 파트너라고 생각한다. 차세대 언어, 비디오 및 코드 모델과 그 이후에도 협력할 수 있기를 기대한다"고 말했다.

오픈 비노(OpenVINO)는 스테이블 디퓨전 추론을 더욱 가속화한다. 4세대 제온 CPU와 결합하면 3세대 인텔 제온 스케일러블 CPU에 비해 약 2.7배의 속도가 향상된다. 인텔 아키텍처에서 엔드투엔드 파이프라인을 가속화하기 위해 오픈 비노가 지원하는 도구인 옵티멈 인텔(Optimum Intel)은 평균 지연 시간을 추가 3.5배, 전체 약 10배까지 줄일 수 있다.

가격, 성능 및 효율성 문제 해결

더불어, 더 나은 성능에 대한 요구를 충족하면서 전력 사용량을 줄여야 하는 중요한 과제를 해결하기 위해서는 보다 지속 가능한 솔루션을 쉽게 이용할 수 있어야 한다. 개방형 생태계는 발전을 제한하는 장애물을 제거해 개발자 작업에 가장 적합한 하드웨어 및 소프트웨어 도구로 혁신할 수 있도록 지원한다.

1세대 가우디와 동일한 고효율 아키텍처를 기반으로 구축되어 가우디2는 AWS 클라우드의 동급 엔비디아 기반 인스턴스보다 최대 40% 더 나은 가격 대비 성능을 제공하며 대규모 워크로드에 새로운 차원의 성능과 효율성을 제공한다. 또한 AI 워크로드를 실행할 때 전력 효율성도 입증했다. 슈퍼마이크로 가우디2 서버와 슈퍼마이크로 엔비디아 A100 서버 간의 전력 소비량 평가에서 가우디2는 인기 있는 컴퓨터 비전 워크로드를 실행할 때 A100 서버보다 와트당 처리량에서 1.8배의 우위를 보였다.¹

대규모 AI 워크로드에는 전력 효율성을 높여주는 유연한 개방형 솔루션과 함께 한번 구축된 모델을 어디서나 배포할 수 있는 접근 방식을 필요로 한다. 4세대 제온 프로세서는 인텔에서 가장 지속 가능한 데이터센터 프로세서로, 에너지 효율성과 전력 절감을 향상시킨다. 인텔 AMX와 같은 내장형 가속기를 사용하면 광범위한 AI 워크로드 및 사용 사례에서 추론 및 학습 성능을 10배 향상³시킬 수 있으며, 인텔의 이전 세대 대비 와트당 성능을 최대 14배까지 향상시킬 수 있다.⁴

윤리적 AI의 미래 지원

생성형 AI는 인간의 능력을 지원하고 증폭하는 강력한 도구이지만, 이러한 시스템의 개발과 배포는 인간 중심의 접근 방식에서 비롯됐다. 시스템이 윤리적 문제없이 잠재력을 최대한 발휘하려면 책임감 있는 AI 거버넌스가 필요하다. AI의 윤리를 보호하는 가장 좋은 방법은 학습 및 데이터 세트 전반에서 투명성을 촉진하는 개방형 생태계를 이용하는 것이다. 투명한 AI 공급망은 AI가 책임감 있게 개발되도록 보장하고 공급망의 윤리적 부채를 줄여준다. 이러한 투명성을 통해 개발자는 데이터 세트와 모델의 적합성을 평가하고, 결과를 복제하고, 사용 컨텍스트에 대한 윤리적 우려 사항을 파악할 수 있다.

생성형 AI는 더 큰 AI 모자이크의 한 조각이다. AI의 대중화를 위한 인텔의 접근 방식은 하드웨어의 고유한 강점, 개방형 에코시스템 지원, 미래를 위한 적절한 투자를 결합하여 생성형 AI를 포함한 모든 형태의 AI에 대한 컴퓨팅 요구를 충족하고 있다.

모든 사람들이 손쉽게 컴퓨팅 및 도구를 사용할 수 있도록 지원하기 위한 인텔의 접근 방식은 대규모 언어 모델 구축에 대한 접근을 가능하게 하여 비용을 절감하고 형평성을 개선한다. 예를 들어, 인텔은 루게릭병 환자들이 보다 효과적으로 의사소통할 수 있도록 LLM을 맞춤화하는 데 주력하고 있다. 개발자 커뮤니티에서 해당 모델을 각자의 용도에 맞게 조정할 수 있도록 지원하면 도움이 필요한 사람들이 손쉽게 접근할 수 있다.

AI는 먼 길을 걸어왔지만 앞으로 훨씬 더 전진할 필요가 있다. 인텔은 신뢰를 바탕으로, 선택권을 제공하며, 업계 전반의 상호 운용성을 보장하기 위해 개방형 생태계를 지속적으로 개발하고 있다. 또한 다학제적 접근 방식을 사용하여 에너지 효율적인 솔루션을 제공하고 인간-AI 협업을 통해 AI로 인간의 잠재력을 증폭하는데 주력하고 있다. 개방적인 접근 방식이 최선의 길이다.

참고자료
1. 가우디2 HL-225H SYS-820GH-THR2의 슈퍼마이크로 L12 검증 보고서, 2022년 10월 20일
2. 2023년 3월 24일, 8개의 가우디2 HL-225H 메자닌 카드와 3세대 인텔 제온 프로세서를 갖춘 인텔 개발자 클라우드에서 호스팅되는 하바나 가우디2 딥 러닝 서버를 사용하여 측정되었으며, batch_size=1, SynapseAI® 소프트웨어 버전 1.8.0으로 실행.
3. 4세대 인텔 제온 스케일러블 프로세서 섹션 인텔닷컴/성능 인덱스에서 [A16] 및 [A17] 참조
4. intel.com/processorclaims 참조: 4세대 인텔 제온 스케일러블 프로세서. 클레임 E1.

그래픽 / 영상