'IPU-POD'으로 최대 16엑사플롭 연산 성능 구현도 가능
각 모듈에는 7나노 '콜로서스 Mk2 GC200 IPU' 탑재

그래프코어가 2세대 지능처리장치(IPU) 플랫폼인 ‘IPU-머신 M2000(IPU-Machine M2000, 사진)’을 출시했다./그래프코어

그래프코어(지사장 강민우)는 2세대 지능처리장치(IPU) 플랫폼인 ‘IPU-머신 M2000(IPU-Machine M2000)’을 출시했다고 17일 밝혔다.

이 솔루션은 보다 큰 처리 능력과 메모리, 내장된 확장성을 갖춰 머신 인텔리전스 워크로드를 처리하는 한편 데이터센터급 연산 성능을 구현할 수 있다. 플러그 앤 플레이 방식으로, 대규모 확장이 가능하다. 유닛 하나로 1 페타플롭(PetaFlop)에 달하는 머신 인텔리전스 컴퓨팅 성능을 낼 수 있고 인공지능(AI)의 스케일아웃(scale-out)에 최적화된 통합 네트워킹 기술을 탑재했다.

각 IPU-머신 M2000에는 7㎚ 공정에서 생산된 IPU 프로세서 '콜로서스 Mk2 GC200' 4개가 탑재됐고, 그래프코어의 포플러(Poplar) 소프트웨어 스택이 포함됐다. 기존 Mk1 IPU 제품 대비 성능이 8배 향상됐고, Mk1 IPU와 호환된다. 포플러 소프트웨어는 IPU가 독자 익스체인지-메모리(Exchange-Memory) 통신 기능을 통해 '스트리밍 메모리(Streaming Memory)'에 접근할 수 있도록 지원하기 때문에 수천억 개의 매개 변수를 갖는 대규모 모델 또한 지원 가능하다.

그래프코어의 IPU는 그래프 연산에 최적화된 아키텍처를 기반으로 한다. 코어마다 S램이 붙어있지만, 코어와 S램이 서로 종속돼있지 않아 코어 하나가 이론상 수 개의 S램을 활용할 수 있다. 이를 통해 대규모 연산을 빠른 시간 내 수행할 수 있다. 그래프코어에서는 이같은 아키텍처를 두고 '인-프로세서 메모리'라고 설명한다. 익스체인지 메모리는 IPU 사이에 장착되는 외부 메모리다.

각 IPU-머신 M2000은 최대 450GB의 밀도를 제공하며, 초당 180TB에 이르는 대역폭으로 익스체인지-메모리를 지원한다. 이에 따라 IPU 익스체인지-메모리는 최신 7나노 공정의 GPU 제품 대비 10배 이상의 높은 메모리 밀도와 100배 이상 높은 메모리 대역폭의 이점을 제공한다.

 

IPU-POD./그래프코어

IPU-머신 M2000은 단일 제품을 기존 중앙처리장치(CPU) 서버 중 하나에 직접 연결해 구축하거나 서버 한 대에 최대 8대의 IPU-머신 M2000을 추가로 연결시킬 수도 있다.

대규모 시스템의 경우, IPU-머신 M2000을 'IPU-POD' 구성 방식으로 16엑사플롭(ExaFlops)의 머신 인텔리전스 연산 성능을 구현할 수도 있다. 표준 19인치 랙에 16개의 IPU-머신 M2000을 넣어 최대 6만4000개 IPU의 데이터센터 규모 시스템을 구축하는 것이다. 이를 통해 가장 까다로운 머신 인텔리전스 학습이나 대규모 구축에 따른 워크로드를 처리할 수 있다.

IPU-머신 M2000과 IPU-POD는 그래프코어의 새로운 IPU-패브릭(IPU-Fabric) 기술을 통해 규모에 맞게 연결 가능하다. 인공지능(AI) 네트워킹 시스템이 내장돼있어 저지연의 전용 패브릭을 구현해 데이터센터 전반에 걸쳐 IPU를 연결시킨다.

그래프코어의 ‘버추얼-IPU(Virtual-IPU)’ 소프트웨어는 워크로드 관리 및 오케스트레이션(orchestration) 소프트웨어와 통합돼 다양한 사용자의 학습과 추론을 위한 서비스를 손쉽게 제공하며, 이를 통해 사용자는 가용 자원을 작업별로 조정 및 재구성할 수 있다.

또 머신 인텔리전스 워크로드에 단일 IPU 또는 수천 개의 IPU를 사용하는 경우에도 그래프코어의 포플러 SDK(Poplar SDK)를 통해 해당 작업을 간소화할 수 있다. 포플러는 텐서플로우(TensorFlow)나 파이토치(PyTorch)와 같이 사용자가 선호하는 AI 프레임워크를 활용할 수 있으며, 해당 프레임워크로부터 연산 내용, 데이터 및 통신을 포괄하는 완전한 연산 그래프를 구축한다. 이후 해당 연산 그래프를 컴파일하고, 연산, 메모리 및 네트워킹 통신을 관리하는 런타임 프로그램을 구축하여 가용 IPU 하드웨어의 활용성을 극대화할 수 있다.

 

IPU-머신 M2000에 내장된 그래프코어 콜로서스 Mk2 GC200 IPU./그래프코어

IPU-머신 M2000은 새로운 그래프코어 콜로서스 Mk2 GC200 IPU를 탑재하고 있다. TSMC의 7나노 공정 기술을 이용해 개발된 각 칩에는 823㎟ 크기의 단일 다이(die)에 594억 개가 넘는 트랜지스터가 들어있고, IPU 코어는 1472개가 담겨있어 8832개의 개별적인 병렬 연산 스레드를 실행할 수 있다.

각 IPU 프로세서 코어는 그래프코어가 독자적으로 개발한 부동 소수점 기술 ‘AI-플로트(AI-Float)’를 통해 성능을 향상시킨다. 산술 구현 성능을 조정해 머신 인텔리전스 연산의 전력 소비와 성능을 개선하고 각각의 IPU-머신 M2000 블레이드 유닛 하나 당 최대 1 페타플롭의 AI 연산 성능을 제공한다.

나이젤 툰(Nigel Toon) 그래프코어 최고경영자(CEO)는 “그래프코어의 2세대 IPU 플랫폼을 선보이게 되어 매우 기쁘게 생각한다”며, “이번에 새롭게 출시한 M2000은 기존에 비해 8배 가량 향상된 성능을 제공해 가장 까다로운 머신 러닝 및 대규모 데이터센터급 워크로드 처리도 가능하다. 그래프코어는 앞으로도 탄탄한 글로벌 파트너 생태계(에코시스템)를 바탕으로 머신 인텔리전스 분야의 다양한 고객층을 지원하기 위해 적극적인 시장 공략에 나설 것”이라고 말했다.

강민우 그래프코어 한국 지사장은 “그래프코어는 지속적인 혁신 제품 개발을 통해 국내외 AI 기업 고객의 요구사항을 충족하고 있다”며, “실제로 많은 고객들이 GPU 기반 기술 대비 월등한 성능 개선을 통한 상업적 이점과 AI 연구 분야 진전에 도움이 됐다고 보고하고 있다. 그래프코어는 국내 비즈니스 강화에 초점을 두고 전폭적인 고객 지원을 아끼지 않겠다”고 덧붙였다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지