엔비디아 A100 제품 대비 2배 높은 컴퓨터 비전 및 자연어 처리(NLP) 학습 성능 제공

인텔의 자회사인 하바나 랩스(Habana Labs)는 미 현지시간 10일부터 개최한 인텔 비전(Intel Vision) 행사에서 인공지능 학습용 2세대 가우디 프로세서인 가우디®2 프로세서와 추론용 고야™(Goya™) 프로세서의 후속작인 그레코(Greco) 프로세서를 공개했다고 12일 밝혔다.

가우디2 프로세서와 그레코 프로세서는 인공지능 딥러닝 애플리케이션을 위해 특별히 개발됐으며, 7나노 공정 기반으로 제작됐다. 아울러 하바나 랩스의 고효율 아키텍처를 기반으로 구축, 고객에게 데이터 센터 컴퓨터 비전 및 자연어 애플리케이션을 위한 고성능 모델 학습 및 추론 기능을 제공한다.

이날 하바나 랩스는 가우디2 프로세서로 컴퓨터 비전인 레스넷-50(ResNet-50)(v1.1)과 자연어 처리용 기계학습 기술(BERT) 1단계 및 2단계 워크로드 처리량 성능을 시연했다. 가우디2 프로세서는 엔비디아 A100 80GB 프로세서 대비 2배 높은 성능을 기록했다.

데이터 센터의 경우 데이터 세트와 AI 워크로드의 규모가 커지고 복잡해지면서 딥 러닝 모델 학습에 점점 더 많은 시간과 비용이 투입된다. 가우디2는 클라우드 및 온프레미스 고객에게 향상된 딥러닝 성능과 효율성 및 선택권을 제공하도록 설계됐다.

IDC가 지난 2020년 발표한 조사결과에 따르면 머신 러닝 실무자 중 74%가 5~10회, 50% 이상이 매주 또는 그 이상 모델 학습을 반복하며, 26%가 매일 또는 매시간 모델을 재구성한다. 더불어 응답자 중 56%는 AI가 제공할 수 있는 통찰력, 혁신 및 향상된 최종 고객 경험을 활용하는 데 있어 학습 비용이 가장 큰 걸림돌이라고 답했다. 가우디 플랫폼 솔루션인 1세대 가우디와 가우디2는 증가하는 수요를 해결하기 위해 탄생했다.

하바나 가우디2 프로세서는 기존 고효율 1세대 가우디와 동일한 아키텍처를 기반으로 설계돼 인공지능 학습 성능을 크게 향상시켰다. 현존하는 클라우드 내 GPU 기반 솔루션 및 아마존 EC2 DL1 인스턴스는 물론 슈퍼마이크로 가우디 훈련 온프레미스 서버 대비 40% 높은 가격 대비 성능을 경험할 수 있다.

1세대 가우디 대비 가우디2 프로세서의 주요 개선 사항은 우선 16나노미터에서 7나노미터로 향상된 공정을 사용했다는 점이다. 이에 따라 매트릭스 곱셈 엔진(MME) 및 텐서 프로세서 코어 컴퓨팅 엔진에 FP8을 포함한 새로운 데이터 유형을 도입했다. 

텐서 프로세서 코어는 8개에서 24개로 늘어났다. 또 호스트 하위 시스템을 오프로드하기 위한 온칩 미디어 처리 엔진을 통합했다. 32GB에서 96GB HBM2E로 3배 증가한 2.45TB/초 대역폭에서의 인패키지 메모리 용량도 돋보인다. 이밖에 48MB로 2배 증가한 이중 온보드 SRAM과 통합된 RoCE2(RDMA over Converged Ethernet)가 10개의 NIC에서 24개로 늘어나 산업 표준 네트워킹에서 고효율 스케일업 및 스케일아웃을 지원하는 점도 특징이다. 

가우디2 프로세서는 프레임워크와 통합된 전체 소프트웨어를 포함해 주요 워크로드에 대해 동일한 공정 노드 기반 A100 GPU 대비 약 2배 높은 학습 성능을 제공한다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지

키워드

Tags #인텔 #하바나