GPU 혹은 멜라녹스 인피니밴드 네트워킹 활용... 전력 효율 2.8배 개선

사진=엔비디아.

Arm 기반 슈퍼컴퓨터가 세계 1위 슈퍼컴퓨터에 오르고, AMD 기반 슈퍼컴퓨터를 채택하고 있는 곳이 증가하고 있지만 여전히 이 시장의 승자는 엔비디아다.

엔비디아는 세계 10대 슈퍼컴퓨터 중 8대가 엔비디아 그래픽처리장치(GPU)나 멜라녹스의 인피니밴드(InfiniBand) 네트워킹을 활용하고 있다고 23일 밝혔다. 

멜라녹스 인수 이후 엔비디아는 전세계 상위 500대 슈퍼컴퓨터 중 약 3분의 2에 해당하는 333개를 지원하고 있다. 또한, 인피니밴드 시스템을 채택한 슈퍼컴퓨터 중 약 74%가 멜라녹스 HDR 200G 인피니밴드를 도입했다. HDR 인피니밴드를 사용하는 전세계 상위 500대 슈퍼컴퓨터의 수는 2019년 11월 이후 거의 두 배 증가했다.

엔비디아 멜라녹스 인피니밴드와 이더넷 네트워크는 전세계 상위 500대 슈퍼컴퓨터의 61%에 달하는 305대의 시스템을 연결하는데, 여기에는 인피니밴드 시스템을 채택한 141대의 슈퍼컴퓨터와 이더넷 네트워크를 사용하는 164대의 시스템이 해당된다.

엔비디아 GPU를 사용하는 시스템은 에너지 효율 측면에서 우위를 차지하고 있다. 평균적으로 기가플롭/와트 단위로 측정 시 엔비디아 GPU를 장착하지 않은 시스템 대비 2.8배 높은 전력효율을 구현한다. 이는 엔비디아 GPU가 현재 전세계 상위 500대 슈퍼컴퓨터 목록에서 상위 25대 슈퍼컴퓨터 중 20대에 사용되는 이유이기도 하다.

 

엔비디아 GPU 기반 시스템은 엔비디아 GPU가 없는 시스템보다 전력 효율이 2.8배 높다./엔비디아

엔비디아는 슈퍼 POD 레퍼런스 설계를 통해 어느 조직이든 빠르게 세계적 수준의 컴퓨팅 클러스터를 구축할 수 있게 지원한다. 고성능 엔비디아 멜라녹스 인피니밴드 스위치는 20대의 DGX A100 시스템을 마치 레고처럼 연결한다.

4명의 운영자는 1시간 이내에 20개의 DGX A100 클러스터를 랙에 장착해 전세계 상위 500대 슈퍼컴퓨터 목록에 포함될 정도로 강력한 2페타플롭의 성능을 내는 시스템을 만들 수 있다. 이러한 시스템은 표준 데이터센터의 전력 및 열 성능 내에서 원활하게 작동하도록 설계됐다.

아직 전세계 상위 500대 슈퍼컴퓨터에 포함되지 않은 6개의 시스템이 엔비디아 A100 GPU를 통해 구축되고 있다. 그 중 하나는 아르곤 국립 연구소(Argonne National Laboratory)에 있는데 해당 연구소 연구원들은 24개의 엔비디아 DGX A100 시스템으로 구성된 클러스터를 활용해 코로나19 치료법을 찾기 위한 수십억 개의 약물 스캔 작업을 수행하고 있다. 

또 미 국가 에너지 연구 과학 컴퓨팅 센터(NERSC)는 6,200개의 A100 GPU가 장착된 엑사스케일급 시스템 펄머터(Perlmutter)를 대상으로 하는 여러 프로젝트에 AI를 활용하고 있다. 이 밖에도, 뮌헨의 연구원들은 서밋(Summit) 슈퍼컴퓨터에 장착된 6,000개의 GPU에서 자연어 모델을 훈련시켜 코로나바이러스 단백질 분석 속도를 높이고 있다.

과학자들이 딥 러닝과 애널리틱스를 활용해 연구를 가속화하면서 클라우드 서비스에 접근하고 네트워크 엣지 상의 원격 기기에서 데이터를 스트리밍 하고 있다. 이를 지원하기 위해 엔비디아는 ▲시뮬레이션 ▲AI 및 데이터 분석 ▲엣지 스트리밍 ▲가상화 등 과학 컴퓨팅 영역에 집중하고 있다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지