▲메타의 AI 리서치 슈퍼클러스터는 수백 개의 엔비디아 DGX 시스템을 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand) 네트워크에 연결해 AI 연구팀의 작업을 가속화한다.
▲메타의 AI 리서치 슈퍼클러스터는 수백 개의 엔비디아 DGX 시스템을 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand) 네트워크에 연결해 AI 연구팀의 작업을 가속화한다.

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 현재 최대 엔비디아 DGX A100 고객 시스템인 메타(Meta)의 AI 슈퍼컴퓨터를 통해 메타 AI 연구원에게 5 엑사플롭스(exaflops)급 AI 성능을 제공할 것이라고 25일 밝혔다. 메타의 AI 슈퍼컴퓨터는 최첨단 엔비디아 시스템, 인피니밴드(InfiniBand) 패브릭 및 소프트웨어를 통해 수천 개의 GPU에서 최적화가 가능하다.

메타 플랫폼스(Meta Platforms)의 AI 리서치 슈퍼클러스터(RSC)는 이미 AI를 발전시키기 위한 새로운 모델을 훈련시키고 있다. 메타의 RSC가 완전히 구축되면 엔비디아 DGX A100 시스템의 최대 고객 설치가 될 것으로 예상된다.메타는 블로그를 통해 "RSC가 서로 다른 언어를 사용하는 대규모 집단에게 실시간 음성 통역을 지원해 연구 프로젝트 협력을 원활히 하거나 AR 게임을 함께 할 수 있도록 하는 완전히 새로운 AI 시스템을 구축하는 데 도움이 되기를 바란다"고 밝혔다.

메타는 RSC가 완전히 구축되면 올해 말 이를 활용해 매개 변수가 1조 개가 넘는 AI 모델을 훈련하는 것을 목표로 하고 있다. 이는 실시간으로 유해한 내용을 파악하는 것과 같은 작업에 대한 자연어 처리와 같은 분야를 발전시킬 수 있다. 메타는 대규모 성능 외에도 RSC의 핵심 기준으로 높은 신뢰성, 보안성, 프라이버시, 그리고 '광범위한 AI 모델'을 다룰 수 있는 유연성을 꼽았다.

신형 AI 슈퍼컴퓨터는 현재 760개의 엔비디아 DGX A100 시스템을 컴퓨팅 노드로 사용하고 있다. 엔비디아 퀀텀(Quantum) 200Gb/s 인피니밴드 네트워크에 연결된 총 6,080개의 엔비디아 A100 GPU를 패키징해 1,895 페타플롭스(petaflops)급 TF32 성능을 제공한다.

메타가 연구 인프라 기반으로 엔비디아 기술을 선택한 것은 이번이 두 번째다. 메타는 2017년 하루 3만5000개의 AI 훈련 작업을 처리하는 엔비디아 V100 텐서 코어 GPU 2만2000개로 AI 연구용 1세대 인프라를 구축한 바 있다.

메타의 초기 벤치마크는 RSC가 이전 시스템보다 대형 NLP 모델을 3배 더 빠르게 훈련하고 컴퓨터 비전 작업을 20배 더 빠르게 실행할 수 있음을 보여준다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지