-- 최고의 성능을 자랑하는 네트워크 구축

선전, 중국 2023년 10월 18일 /PRNewswire=연합뉴스/ -- "마감일에 맞추려면 이 작업을 꼭 실행해야 하는데 리소스 대기 시간이 너무 깁니다. 어떻게 해야 하죠?"

"실험 마감이 다음 주로 다가왔는데 데이터 일부가 잘못됐다는 걸 알았어요. 시뮬레이션을 다시 돌리려면 100시간도 넘게 걸릴 텐데, 빠르게 처리할 수는 없나요?"

"정말 중요한 실험을 하고 있는데 마감이 곧 다가옵니다. 제 작업을 먼저 실행할 수 있을까요?"

과학 연구원은 분자 운동, DNA 구성, 풍동 시험, 복잡한 모델링 및 시뮬레이션 실험은 물론, 한정된 컴퓨팅 리소스 관리와 긴 대기 시간 조정까지 신경 써야 한다.

베이징 대학교의 공용 HPC 플랫폼은 HPC 효율성을 높이고 과학 실험 비용을 줄이기 위한 목적으로 공급업체 평가를 구성하여 기대에 부응할 수 있는 HPC 네트워크를 선정하기 위한 평가를 진행했으며, 화웨이의 지능형 무손실 HPC 네트워크가 독보적인 컴퓨터 성능을 인정받아 1위를 차지했다.

뛰어난 성과를 자랑하는 컴퓨팅 센터

베이징 대학교는 1963년 최초로 컴퓨터를 구입한 이래, 중국의 대학교 중 컴퓨팅 센터 구축에 앞장서고 있다. 2001년에는 다양한 분야의 전문가를 초빙해 Center for Computational Science & Engineering을 설립했으며, 이후 베이징 대학교의 강의 및 연구 활동을 돕는 다학제적 연구 플랫폼으로 자리매김했다. 2018년, 공용 HPC 플랫폼이 공개되면서 Weiming No. 1, Weiming Teaching No. 1, Weiming Biological Science No. 1 등 세 개의 클러스터가 순차적으로 운용되기 시작했다. 공용 플랫폼의 컴퓨팅 코어는 총 3만 1732개에 달했으며 컴퓨팅 최대 성능은 3.65PFLOPS였다. 이 플랫폼을 통해 수학, 기계학, 물리학, 화학, 생물학, 지질학 등 수많은 학문을 위한 HPC 환경을 조성했다.

과학 연구를 위한 탄탄한 토대 마련

HPC 플랫폼은 대학교의 과학 연구를 활성화하는 데 일익을 담당하고 있다. 2023년 5월 12일, 베이징 대학교의 HPC 플랫폼 사용자가 96개 학부의 5070명에 달했으며, 총 31억 3600만 위안에 해당하는 연구 프로젝트 545건 이상과 우수한 논문 1400편 이상이 해당 플랫폼을 활용했다. 또한 2020년에는 Gordon Bell Award가 발표되었는데, 수상에 빛나는 이 프로젝트는 분자 동역학에서 발생하는 시뮬레이션의 한계를 해결해 나가는 데 도움을 주었다. 머신 러닝을 통해 최대 1억 개의 원자가 가능해지는 쾌거였으며, 지금까지도 컴퓨팅 과학 분야의 가장 뛰어난 성과로 손꼽힌다.

컴퓨팅 요구사항 증가로 네트워크 재구축 시급

플랫폼 사용자 수의 지속적인 증가로 구동 작업량이 점점 최대치를 향해 치닫고 있다. 그 결과, 네트워크 기반 시설의 처리량 및 복잡도가 유례없이 증가했다. 일례로 Weiming Biological Science Number 1을 살펴보면 노드 사용률이 오랜 기간 95% 이상을 기록하고 있다. 최대 작업 시간은 무려 109시간이며 최대 대기 시간은 550시간을 기록했다. 시스템 및 네트워크 재구축이 시급한 이유이기도 하다.

공급업체들은 이러한 문제를 해결하기 위해 InfiniBand (IB), RoCEv1, RoCEv2 등의 무손실 네트워크 기술을 활용하고 있다. 베이징 대학교의 공용 HPC 플랫폼은 까다로운 시험 절차를 거쳐 독보적인 성능을 자랑하는 화웨이의 CloudFabric 3.0 hyper-converged DCN 솔루션을 택했다. 지능형 무손실 HPC 네트워크에 기반을 둔 이 솔루션은 컴퓨팅 성능을 100퍼센트 발휘하고 작업 실행 및 대기 시간을 최소화할 수 있도록 하는 HPC 클러스터 구축에 이상적이다.

베이징 대학교, 화웨이의 지능형 무손실 HPC 네트워크를 통해 과학 연구 효율성 개선

시험은 HPC 벤치마크 시험 도구 LINPACK, Community Earth System Model(CESM), 분자 동역학 소프트웨어 Virtual Analogue Switching Point(VASP) 등 다양한 적용 시나리오에서 TCP/IP, IB, RoCEv2의 성능을 주로 평가한다.

화웨이의 지능형 무손실 HPC 네트워크 100GE RoCEv2는 VASP 테스트에서 IB를 앞섰으며, LINPACK 및 CESM 시험에서 IB와 동일한 성능을 보여주었다. 시험 결과를 통틀어 볼 때, 실제 적용 시나리오에서 화웨이의 지능형 무손실 HPC 네트워크가 IB를 대체할 수 있다는 결론이다.

화웨이의 지능형 무손실 HPC 네트워크 솔루션을 활용하면 무손실 이더넷이 가능해진다. 무손실 이더넷은 기존 이더넷과 비교해 동일한 서버 크기에서 두 배의 컴퓨팅 성능을 낼 수 있다. CloudEngine 16800 스위치도 핵심 요소 중 하나다. 여러 기능을 갖춘 이 스위치는 업계 최대 밀도인 768 x 400GE 포트를 제공해 10E 레벨의 초대형 컴퓨팅 클러스터를 구축하기에 매우 적합하다. 또한 화웨이는 네트워크가 지원하는 컴퓨팅, 즉 인네트워크 컴퓨팅(INC)을 실행할 수 있는 유일한 공급업체이다. Tolly 인증에서 증명된 것처럼 화웨이 솔루션은 IB보다 17% 빠르게 작업을 완료할 수 있다.

베이징 대학교의 HPC 플랫폼은 중국 전역에서 가장 우수한 슈퍼컴퓨팅 클러스터를 보유하고 있다. 시스템 전체의 LINPACK 효율성은 줄곧 1위를 고수하고 있는데, 네트워크 성능 및 신뢰성에 대한 매우 높은 수준의 요구사항이 제시된다. 시험 결과를 통해 Huawei hyper-converged DCN의 우수성과 화웨이가 슈퍼컴퓨팅 업계에서 더욱 주목받게 된 성과를 다시 한번 입증했다. 화웨이의 지능형 무손실 HPC 네트워크는 향후 교육, 과학 연구 등 다양한 분야에서 더 폭넓게 적용되어 과학 컴퓨팅, 공학 혁신, 고도의 과학 연구 등을 위해 탄탄한 토대를 마련할 전망이다.

본 기사는 ICT Insights의 Smart Education Issue에서 선정된 것으로, 더 자세한 내용은 아래의 화웨이 공식 웹사이트에서 확인할 수 있다.

https://e.huawei.com/en/ict-insights/global/ict_insights/ict34-intelligent-education 

출처: Huawei

Contact
hwebgcomms@huawei.com 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지