엔비디아 GPU A100 및 멜라녹스 인피니밴드 기반

이미지=마이크로소프트 홈페이지.

엔비디아는 마이크로소프트 애저(Microsoft Azure)가 연례 개발자 행사인 '빌드 2020(Build 2020)'에서 엔비디아의 그래픽처리장치(GPU) A100가 탑재된 최초의 인스턴스를 공개했다고 24일 밝혔다.

마이크로소프트는 이번 행사에서 '대규모 AI(AI at Scale)'에 대한 비전을 소개했다. 이 이니셔티브는 최첨단 인공지능(AI) 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델을 골자로 한다. 최대 장점은 AI 슈퍼컴퓨팅을 이용해 방대한 양의 데이터를 한 번만 훈련하면 훨씬 작은 데이터셋과 리소스를 가진 다양한 작업 및 도메인을 정밀 조정할 수 있다는 것이다.

AI 모델은 더 많은 파라미터를 가질수록 데이터를 보다 잘 식별할 수 있다. 예를 들어 마이크로소프트의 언어 모델 'Turing-NLG'은 170억개의 파라미터를 가졌는데, 처음 본 질문에 답하거나 문서를 요약할 수 있을 정도의 언어 이해력을 가졌다. 이같은 자연어 모델은 1년 전 모델보다 훨씬 규모가 크며 빙(Bing), 워드(Word), 아웃룩(Outlook), 다이나믹스(Dynamics)에서 다양한 작업을 수행하고 있다.

대규모 AI 모델을 훈련시키려면 고성능 AI 가속기를 갖추고 시스템 내외부가 고대역폭 네트워크로 연결된 서버 수백 대 규모의 대규모 클러스터가 필요하다. 마이크로소프트는 제품 전반에 걸쳐 새로운 자연어 생성 능력과 이해력을 구현하고, 안전한 AI를 개발한다는 오픈AI(OpenAI)의 미션을 지원하기 위해 애저에 이같은 대형 클러스터를 구축했다.

마이크로소프트의 최신 클러스터는 AI 슈퍼컴퓨터라고 불릴 만큼 많은 컴퓨팅 성능을 제공한다. 현재까지 공개된 전세계 상위 5대 슈퍼컴퓨터 성능과 맞먹으며, 지난 5월 오픈AI는 이 슈퍼컴퓨터로 1750억개의 파라미터를 가진 GP5-3 모델이 시를 쓰거나 번역을 하는 등 특별히 훈련되지 않은 광범위한 작업을 어떻게 지원하는지 선보이기도 했다.

마이크로소프트의 클러스터는 엔비디아 멜라녹스 인피니밴드(NVIDIA Mellanox InfiniBand) 네트워킹으로 연결된 엔비디아 V100 텐서 코어(Tensor Core) GPU를 탑재한 가상머신(VM)을 지원한다. 현재 V100 GPU 기반 VM을 지원하는 퍼블릭 클라우드 제공 업체는 마이크로소프트가 유일하다.

이와 함께 마이크로소프트는 새로운 ND A100 v4 VM 시리즈도 공개했다. 이는 마이크로소프트의 가장 강력하면서도 대규모로 확장 가능한 AI VM으로, 수백 대의 VM에 걸쳐 8개부터 수천 개에 이르는 상호 연결된 엔비디아 GPU를 탑재해 온디맨드 방식으로 이용 가능하다.

ND A100 v4 VM 시리즈는 단일 VM과 8개의 엔비디아 암페어(Ampere) A100 텐서 코어 GPU로 구성됐다. 클러스터로 따지면 VM당 1.6TB/s의 상호연결 대역폭으로 최대 수천 개의 GPU까지 확장 가능하다. 각 GPU에는 토폴로지 제한이 없는 전용 200GB/s 엔비디아 멜라녹스 HDR 인피니밴드 연결이 제공된다. 기존 퍼블릭 클라우드 보다 16배 높은 전용 GPU-투-GPU 대역폭을 통해 모델을 처음부터 훈련하거나, 자체 데이터로 훈련을 계속하거나, 혹은 원하는 작업에 맞게 미세 조정하는 등 어떤 AI 목표든 훨씬 빠르게 달성할 수 있다.

ND A100 v4 VM 시리즈는 PCIe 4.0과 같은 최신 하드웨어 표준을 모든 주요 시스템 구성요소에 적용, 애저용으로 완전히 새롭게 설계된 AMD 롬(Rome) 기반 플랫폼으로 지원된다. 각 VM 내에 있는 PCIe 4.0과 GPU-투-GPU 상호연결을 위한 엔비디아의 3세대 NV링크(NVLINK) 아키텍처는 이전보다 2배 이상 빠른 속도로 시스템간 데이터 이동을 가능케 한다.

이를 통해 고객들은 엔지니어링 작업없이 엔비디아 V100 GPU를 기반으로 하는 이전 세대 시스템 대비 2~3배 컴퓨팅 성능을 즉시 향상시킬 수 있다. 희소성 가속(Sparsity Acceleration)이 가능한 다중 정밀도 텐서 코어, MIG(Multi Instance GPU)와 같은 새로운 A100 기능을 활용하는 고객들은 컴퓨팅 성능을 최대 20배까지 개선할 수 있다.

이안 벅(Ian Buck) 엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄 은 "애저는 엔비디아의 가장 진보된 컴퓨팅 및 네트워킹 기능을 통해 클라우드 상에서 혁신적인 AI 플랫폼을 설계했다. 엔비디아 A100 GPU의 단일 파티션에서부터 엔비디아 멜라녹스 인피니밴드 상호연결을 사용하는 수천 개의 A100 GPU까지 확장될 수 있는 유연한 아키텍처를 통해, 애저 고객은 세계에서 가장 까다로운 AI 워크로드를 실행할 수 있게 될 것”이라고 설명했다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지