엔비디아, 딥 러닝 추론 소개하는 온라인 AI 개발자 밋업 진행

2022년 04월 20일

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 딥 러닝 추론 가속화 솔루션 적용 노하우를 소개하는 ‘엔비디아 AI 개발자 밋업’을 온라인으로 진행한다고 밝혔다.

엔비디아 AI 개발자 밋업 행사 개요

엔비디아 AI 개발자 밋업 – 텐서 RT(TensorRT)/트리톤 추론 서버(Triton Inference Server)는 4월 21일 목요일 오후 2시부터 4시까지 온라인으로 진행된다. 이번 밋업에서는 쉽고 빠른 딥 러닝 추론 가속화 솔루션 적용 노하우를 소개한다.

밋업을 통해 엔비디아는 자사 GPU로 학습한 딥 러닝 모델을 실제 추론을 위해 양산에 적용할 때 고려해야 할 점들을 소개한다. 함수(.predict()와 .forward())를 활용해 간단하게 적용하는 방법부터 인프라에 맞는 고유한 요구 사항을 바탕으로 추론 적용과 최적화에 이르는 엔비디아만의 해결 방법을 제안한다.

밋업에서는 엔비디아 추론 워크플로우를 단계별로 살펴본다. 딥 러닝 모델 최적화를 위한 텐서 RT와 확장 가능하고 유연한 추론 서빙을 위한 엔비디아 트리톤 추론 서버에 대한 최신 업데이트 사항 및 핸즈온 데모 세션을 통해 쉽고 빠른 딥 러닝 애플리케이션 프로덕션 통합 방법도 배울 수 있다. 발표는 엔비디아 솔루션 아키텍트 이진호 대리와 디벨로퍼 릴레이션스(Developer Relations) 매니저 서완석 상무가 맡는다.

더불어, 엔비디아 전문가들과 함께하는 질의응답 세션과 참가자들을 위한 이벤트도 진행된다. 온라인으로 진행되는 본 행사는 링크를 통해 등록할 수 있다. 참가자 전원에게 별도의 온라인 참가 링크가 이메일과 문자로 안내된다.

주요 플랫폼 및 SDK 소개

텐서 RT: AI 추론이 최신 애플리케이션 트렌드를 주도하면서 빠르고 쉬운 추론 구축에 대한 수요도 높아졌다. 하지만 추론은 실시간, 경쟁적인 제약 조건, 빠른 업데이트를 요구하기 때문에 복잡하다. 모든 프레임워크에서 각 타깃 플랫폼에 최적화를 도와주는 엔비디아 텐서 RT는 컴파일러와 런타임으로 지연 시간이 중요한 애플리케이션의 처리량(throughput)을 최대화하며 CNN, RNN과 트랜스포머를 포함한 모든 네트워크를 최적화한다. 또한 텐서 RT는 세계에서 가장 발전한 추론 SDK로 25,000개 이상의 고객이 클라우드에서 엣지에 이르기까지 다양한 산업에 걸쳐 활용하고 있다.
트리톤 추론 서버: 엔비디아 트리톤 추론 서버(트리톤)는 성능을 극대화하고 규모에 맞게 모델 배포를 단순화하는 오픈 소스 추론 서비스 소프트웨어이다. 추론 서빙(inference serving)은 프로덕션 활동에 해당하며 여러 생태계의 소프트웨어 및 툴과의 통합이 필요할 수 있다. 트리톤은 클라우드, 데이터센터, 엣지의 GPU/CPU 기반 인프라에서 사용자 지정 쿠다(CUDA)와 파이썬(Python) 백엔드를 사용해 텐서 RT, 텐서플로우(TensorFlow), 오픈 뉴럴 네트워크 익스체인지(ONNX), 파이토치(PyTorch) 등을 비롯한 다중 프레임워크를 지원한다. 트리톤은 컴퓨터 비전, 자연어 처리, 금융 서비스 등을 위한 애플리케이션 일체의 프로덕션에서 대⋅소규모 고객사가 모두 사용할 수 있는 모델들을 제공한다.

그래픽 / 영상