'젠2' 및 '라데온 인스팅트' GPU 기반 가속 카드

AMD는 칩렛(Chiplet) 기반 '젠2(Zen 2)' 프로세서(CPU)의 코어 설계구조(아키텍처)를 공개하고, 7nm 공정 기반의 AMD 라데온 인스팅트™(Radeon Instinct™) MI60 그래픽 가속기 및 차세대 에픽(EPYC) 서버 프로세서(코드명 Rome)를 8일 발표했다.

'젠2' 아키텍처는 x86 코어 바탕으로 설계됐다. 코어는 7나노 공정 기술을, 입출력(I/O)은 완성도 높은 14나노 공정 기술을 활용한다. 프로세서 내 서로 다른 제조 공정에서 제작된 이같은 '칩렛(Chiplet)'은 AMD 인피니티 패브릭(AMD Infinity Fabric) 기술로 서로 연결된다.

이를 통해 '젠2' 아키텍처 기반 프로세서는 동일한 전력으로 더 많은 CPU 코어를 쓸 수 있어 단일 칩 디자인보다 비용 효율성이 높다.

분기 예측(branch predictor) 및 명령 프리페칭(pre-fetching) 성능이 향상됐고 명령 캐시(instruction cache) 최적화 및 보다 높은 OP 캐시를 제공한다.

256비트(bit)까지 두 배 가량 향상된 연산 속도와 로딩 및 저장을 위한 대역폭, 더 높아진 디스패치 및 리타이어(retire) 대역폭 향상 및  전체 모드에서 높은 처리량이 유지된다.

아마존웹서비스(AWS)의 '아마존 EC2(Amazon Elastic Compute Cloud) 인스턴스'에는 7나노 기반 AMD 에픽(EPYC) 프로세서 기반 제품군이 추가된다. 

M5a 및 T3a 인스턴스에는 웹 애플리케이션 서버, 기업용 응용 프로그램을 위한 백 엔드(back-end) 서버 및 완벽한 응용 프로그램 마이그레이션과 함께 실험 및 개발 환경을 위한 컴퓨트, 메모리 및 네트워킹 리소스의 균형을 제공한다.

인메모리(in-memory) 프로세싱, 데이터 마이닝 및 다이내믹 데이터 프로세싱에 쓰이는 R5a 인스턴스도 고대역폭메모리(HBM)의 성능을 느낄 수 있게 된다.

7나노 기반 '에픽 프로세서'는 최대 64개의 '젠2' 코어를 내장할 수 있다. IPC(instructions-per-cycle)와 리더십 컴퓨트, 입출력(I/O)및 메모리 대역폭 등 제반 성능이 모두 향상됏다.

현 세대 AMD 에픽 프로세서 대비 두 배 가량 향상된 소켓 당 컴퓨트 성능과 약 4배 향상된 소켓 당 연산 성능(FLOPS)을 제공한다. 플랫폼은 서로 호환된다.

AMD는 7nm+ 공정 기반의 '젠 3(Zen 3)' 및 '젠 4(Zen 4)' x86 코어 아키텍처도 로드맵에 따라 순조롭게 개발 중이다.

7나노 공정에서 제작되는 첫 데이터센터용 그래픽처리장치(GPU) ‘라데온 인스팅트(Radeon Instinct)’ 기반 MI60 및 MI50 가속 카드를 각각 연내, 내년 출시된다.

 

▲AMD의 '라데온 인스팅트 GPU' 기반 가속 카드.
▲AMD의 '라데온 인스팅트 GPU' 기반 가속 카드./AMD

두 제품은 차세대 심층학습(DL), 고성능 컴퓨팅(HPC), 클라우드 컴퓨팅, 렌더링 응용 프로그램을 구동할 수 있을 정도의 성능을 갖췄다. 인텔이 10나노 공정 대량 양산에 어려움을 겪고 있는 사이 7나노 기반 GPU로 시장 점유율을 확대하겠다는 전략이다.

두 제품에는 고성능 컴퓨트 유닛이 내장돼 GPU와 컴퓨트 성능을 모두 활용할 수 있어 FP16 및 FP32의 혼합정밀도(mixed-precision) 연산 성능을 제공하고, 다중 정밀도는 INT8 및 INT4를 지원한다.

두 제품은 차세대 ‘PCle 4.0’을 지원해 3세대 PCle 대비 최대 6배 향상된 배정밀도 속도를 제공한다. AMD 라데온 인스팅트 MI60 가속 카드의 연산 성능은 FP64 기준 7.4 테라플롭스(TFLOPS)고, MI50 가속 카드는 최대 6.7 테라플롭스다.

‘AMD 인피니트 패브릭’ 기술을 활용, 한 번에 최대 4개의 GPU를 연결할 수 있고 서버 하나당 총 8개의 GPU를 탑재할 수 있다. 메모리 대역과의 데이터 전송 속도는 최대 200GB/s다. PCle 3.0을 단독으로 사용한 경우와 비교하면 6배 빠르다. x86 기반 서버에 적용하면 기존보다 2배 빠르게 데이터를 처리할 수 있다.

AMD 라데온 인스팅트 MI60와 MI50 가속 카드에는 각각 오류교정코드(ECC) 메모리 32GB, 2세대 고대역폭메모리(HBM2) 16GB가 탑재됐다. 업그레이드된 RAS(Reliability, Accessibility, and Serviceabolity) 기능을 지원해 대규모의 고성능 컴퓨팅 시스템에 적용했을 때 보다 더 정확한 컴퓨트 성능을 제공한다.

업계 유일의 하드웨어 기반 GPU 가상화 솔루션 ‘AMD MxGPU’ 기술이 적용돼 하드웨어 단계에서부터 외부 해킹 시도를 방어하고, 가상 클라우드 적용 시 요구되는 높은 수준의 보안성을 제공한다.

AMD는 신형 가속 카드의 기능과 호환되는 새로운 버전의 ROCm 오픈 소스트웨어 플랫폼도 함께 발표했다. 딥러닝 오퍼레이션을 위한 최신 라이브러리를 제공,  ‘ROCm’ 플랫폼은 고객이 고성능의 에너지 효율성이 높은 이종 컴퓨팅 플랫폼을 개방형 생태계에 적용할 수 있도록 돕는다.

센트OS(CentOS), 레드햇엔터프라이즈리눅스(RHEL), 우분투(Ubuntu) 등 64비트 리눅스 기반 운영 체제와 호환되며, 기존 구성요소에 대한 최적화, 텐서플로우 1.11 및 파이토치(PyTorch), 카페2(Caffe2)와 같은 최신 버전의 딥러닝 프레임워크도 지원한다.

리사 수(Lisa Su) AMD 회장 겸 최고경영자(CEO)는 “AMD가 수년간 투자해 온 자사의 데이터센터 하드웨어 및 소프트웨어 로드맵은 클라우드, 엔터프라이즈및HPC 고객으로부터 지속적으로 선택받고 있다”며 “업계를 선두하는 7nm 공정 기술 기반의  업계 내 가장 광범위하고 강력한 데이터센터CPU 및 GPU 포트폴리오를 공개할 예정"이라고 말했다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지

키워드

Tags #AMD #라데온 #7나노 #GPU