엔비디아 EGX A100과 소형 EGX 젯슨 자비에 NX, 엔비디아 A100까지
신규 암페어 아키텍처 도입해 AI 성능 대폭 향상... 유연성도 강조

[편집자 주] 엔비디아의 'GPU 테크놀로지 컨퍼런스(GTC)'는 GPU를 넘어 인공지능(AI)의 발전 양상을 볼 수 있는 장이라고 해도 과언이 아니다. 학습 중인 AI 알고리즘의 99%가 엔비디아의 GPU를 활용하고 있기 때문이다.

올해 행사에서 엔비디아는 엣지와 데이터센터용 GPU 신규 플랫폼을 선보이는 한편 자율주행과 헬스케어, 데이터 사이언스 등에서 자사의 GPU를 어떻게 활용할 수 있는지 제시했다.

 

EGX 엣지 AI 플랫폼

AI로 데이터 처리의 중심 축이 데이터센터에서 엣지(Edge)로 내려오고 있다. 5세대(5G) 이동통신도 기본적으로 단말과 데이터센터 사이 기지국이나 액세스포인트(AP) 등에서 데이터를 전처리하는 분산형 처리 아키텍처다. 

엔비디아는 이같은 엣지 플랫폼에서 AI를 구현할 수 있도록 대형 상용 서버를 위한 EGX A100과 마이크로 엣지 서버용 소형 EGX 젯슨 자비에 NX 등 2종을 출시했다. 두 제품은 엣지에서 고성능으로 AI를 처리한다는 특징을 갖고 있다. 이를 통해 병원, 상점, 농장 및 공장은 수십억 개의 엣지 센서에서 대규모 데이터 스트리밍을 실시간으로 처리하고 보호할 수 있을 뿐 아니라, 서버 플릿(fleet)을 원격으로 안전하게 구축, 관리 및 업데이트 할 수 있다.

 

엔비디아 EGX A100./엔비디아
엔비디아 EGX A100./엔비디아

EGX A100 통합 가속기와 EGX 젯슨 자비에 NX 마이크로 엣지 서버는 다양한 크기, 비용 및 성능 요구를 충족시키기 위해 개발됐다. 예를 들어 EGX A100으로 구동되는 서버는 공항에서 수백 대의 카메라를 관리할 수 있고, EGX 젯슨 자비에 NX는 편의점에 배치된 보다 소수의 카메라를 관리한다. 더불어, 엔비디아는 클라우드 네이티브 지원을 EGX 제품군 전반으로 확대, 기업들은 최적화된 AI 소프트웨어를 사용해 AI 애플리케이션을 쉽게 구축 및 배포할 수 있게 됐다.

EGX A100은 엔비디아 암페어(NVIDIA Ampere) 아키텍처 상 최초의 엣지 AI 제품이다. AI가 점점 엣지로 이동하면서 조직들은 서버에 EGX A100을 포함시켜 엣지 센서에서 방대한 양의 스트리밍 데이터를 실시간으로 처리하고 보호할 수 있다. 또 멜라녹스 ConnectX-6 Dx SmartNIC의 가속화된 네트워킹 및 중요 보안 기능을 결합해 표준 및 특수 목적의 엣지 서버를 안전한 클라우드 네이티브 AI 슈퍼컴퓨터로 변환시킨다.

엔비디아의 8세대 GPU 아키텍처인 엔비디아 암페어 아키텍처는 AI 추론, 엣지에서 실행되는 5G 애플리케이션 등 광범위한 컴퓨팅 집약적 워크로드를 위해 획기적으로 향상된 성능을 제공한다. 이를 통해 EGX A100은 카메라 및 기타 사물인터넷(IoT) 센서에서 대용량 스트리밍 데이터를 실시간으로 처리하여 더 빠른 통찰력을 제공하고 비즈니스 효율성을 높일 수 있도록 한다.

멜라녹스 ConnectX-6 네트워크 카드를 탑재한 EGX A100은 최대 200Gbps의 데이터를 수신해 이를 AI나 5G 신호 처리를 위해 GPU 메모리로 직접 전송한다. 또 통신용으로 설계된 멜라녹스의 TT(Time-Triggered) 전송 기술(5G용 5T)을 도입한 EGX A100은 5G에서 레이턴시에 가장 민감한 사용사례를 처리할 수 있는 클라우드 네이티브 소프트웨어 정의형 가속기로 활용 가능하다.

 

엔비디아 EGX 젯슨 자비에 NX./엔비디아
엔비디아 EGX 젯슨 자비에 NX./엔비디아

EGX 젯슨 자비에 NX는 15W에서 최대 21TOPS, 10W에서 14TOPS의 성능을 제공하는 마이크로 서버 및 엣지 AIoT 박스용 AI 슈퍼 컴퓨터다. 현재 생태계 파트너들을 통해 이용할 수 있는 20개 이상의 솔루션이 있다. 엔비디아 자비에 SoC의 강력한 기능을 신용카드 크기의 모듈에 담은 것으로, EGX 클라우드 네이티브 소프트웨어 스택을 구동하는 EGX 젯슨 자비에 NX는 여러 고해상도 센서의 스트리밍 데이터를 빠르게 처리한다.

젠슨 황(Jensen Huang) 엔비디아 창립자 겸 최고경영자(CEO)는 “사물인터넷(IoT)과 AI가 융합되면서 이른바 ‘스마트 에브리씽(smart everything) 혁명이 시작됐다"며 "엔비디아 EGX 엣지 AI 플랫폼은 표준 서버를 작고 안전한 클라우드 네이티브 AI 데이터센터로 변모시킨다"고 말했다.

 

데이터센터 GPU, 이번엔 유연성이다

엔비디아는 이와 함께 암페어(Ampere) 아키텍처를 처음으로 적용한 데이터센터용 GPU '엔비디아 A100'을 공개했다. 540억개 이상의 트랜지스터를 집적했고, 7나노 공정에서 생산됐다. 

A100은 엔비디아 8세대 GPU에서 지원가능한 최대 성능을 제공해 인공지능(AI) 훈련 및 추론을 통합하고, 이전 세대 프로세서 대비 최대 20배까지 성능을 향상시킨다. 범용 워크로드 가속기로 데이터 분석, 과학 컴퓨팅 및 클라우드 그래픽용으로 활용 가능하다.

가장 돋보이는 건 유연성이다. A100에 적용된 새로운 엘라스틱 컴퓨팅 기술은 각 작업에 따라 적합한 규모의 컴퓨팅 파워를 제공할 수 있도록 한다. 또 멀티-인스턴스 GPU 기능을 사용하면 A100 GPU를 각각 최대 7개의 독립 인스턴스로 분할해 추론 과제를 수행할 수 있으며, 3세대 엔비디아 NV링크(NVLink) 인터커넥트 기술은 여러 A100 GPU가 대규모의 훈련 과제를 위해 하나의 거대한 GPU로 작동할 수 있게 한다.

A100에 담긴 3세대 텐서 코어는 코드 변경없이 FP32 정밀도의 최대 20배까지 AI 성능을 높일 수 있는 새로운 AI용 TF32 기능이 추가됐다. 또 FP64를 지원해 HPC 애플리케이션에 대해 이전 세대보다 최대 2.5배 뛰어난 컴퓨팅 성능을 제공한다. 

 

엔비디아 HGX A100 서버 플랫폼./엔비디아
엔비디아 HGX A100 서버 플랫폼./엔비디아

엔비디아는 파트너의 서버 개발을 가속화하기 위해 여러 GPU 구성의 통합 베이스보드 형태의 서버 빌딩 블록인 HGX A100을 개발했다. 4개의 GPU가 탑재된 HGX A100은 NV링크와 GPU간의 완전한 상호 연결을 제공한다. 반면, 8개의 GPU가 HGX A100은 엔비디아 NV스위치(NVSwitch)를 통해 완전한 GPU-투-GPU 대역폭을 제공한다.

새로운 멀티 인스턴스 GPU 아키텍처가 적용된 HGX A100은 각각 엔비디아 T4보다 빠른 56개의 소형 GPU부터, 8개의 GPU로 10페타플롭(PF)의 AI 성능을 제공하는 거대한 서버까지 구성 가능하다.

 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지