엔비디아, A100 GPU에 탑재된 TF32로 AI 훈련 가속화 지원
2020년 05월 23일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 자사 A100 GPU의 중심이 되는 암페어(Ampere) 아키텍처에 추가된 새로운 연산모드인 TF32를 통해 AI 훈련 가속화를 지원한다고 밝혔다.

 

f9a671e581ff1340b2cf6c960f0ef250_1590168173_8646.jpg

<TF32를 통해 A100 GPU는 볼타 GPU 대비 최대 20배 향상된 AI 성능을 제공한다>

 

TF32는 AI와 특정 HPC 애플리케이션에서 핵심적으로 사용되는 텐서연산이라고도 불리는 행렬연산(matrix math) 처리를 위한 엔비디아 A100 GPU의 새로운 연산모드다. TF32는 A100 GPU의 텐서 코어(Tensor Core)에서 실행되며, 볼타(Volta) GPU의 단정밀도부동소수점연산(FP32)에 비해 최대 10배 빠른 속도를 제공할 수 있다. 또한, A100에서 TF32와 구조적 희소성 기능을 결합하면 볼타 대비 최대 20배 성능을 향상할 수 있다. 

 

한 형식의 지수 내에서 비트(bit)의 수는 개체 크기를 측정할 수 있는 범위를 결정한다. 정밀도는 기수나 소수점 뒤에 있는 부동소수점 숫자에 해당하는 가수에 사용된 bit의 수에 따라 결정된다. 좋은 형식은 균형을 이루고 있다. 정밀도를 전달하기 위해서는 너무 많은 bit를 사용하지 않고 적정한 양의 bit를 사용해 처리속도를 늦추지 않고 메모리를 차지하지 않아야 한다. 

f9a671e581ff1340b2cf6c960f0ef250_1590168101_5168.png

<범위와 정확도 성능 측면에서 균형 잡힌 모습을 보여주는 TF32> 

 

해당 차트는 TF32가 어떻게 텐서연산에서 균형을 맞춰 하이브리드 방식을 취했는지 나타낸다. TF32는 반정밀도(FP16) 수학과 동일한 10bit 가수를 사용하며 AI 워크로드에서 요구되는 정밀도를 충분히 충족시킨다. 이와 동시에 TF32는 FP32와 동일한 8bit 지수를 사용하므로, 동일한 숫자 범위를 지원할 수 있다.

 

TF32는 이 조합을 통해 단정밀도수학과 특히 딥 러닝과 많은 HPC 애플리케이션에서 핵심적인 역할을 하는 대규모 곱셈 누적 연산을 충분히 대체할 수 있다. 사용자는 엔비디아 라이브러리를 사용하는 애플리케이션으로 코드 변경없이 TF32의 이점을 활용할 수 있다. TF32 텐서 코어는 FP32 인풋에서 작동하며 FP32에서 결과를 도출한다. 비행렬연산에서도 FP32를 사용한다.

 

A100은 최대 성능을 내기위해 16bit 연산 기능이 강화돼 FP16과 BF16을 TF32의 두 배 비율로 지원한다. 사용자는 자동혼합정밀도(Automatic Mixed Precision)을 사용해 몇 줄의 코드만으로 2배 높은 성능을 얻을 수 있다.

그래픽 / 영상
많이 본 뉴스