프로세서 아키텍처 변화 바람… 메모리·후공정도 대역폭 확대에 초점

 

반도체 기술의 흐름이 바뀌고 있다. 

 

이전까지 반도체 기술, 특히 프로세서 등 SoC 설계·공정 기술은 동작(Clock) 속도를 높이고 전력 소모량을 줄이는 방향으로 발전해왔다. 기기에 여러 기능이 추가 적용되면서 프로세서의 일거리가 늘어났기 때문이다. 

 

하지만 다(多) 기능보다 고(高) 기능에 대한 수요가 늘면서 프로세서가 할 일 자체가 많아졌고 그만큼 주고받는 데이터의 양도 급증했다. 인공지능(AI) 기능도 반도체 안으로 들어왔다. 5세대(5G) 이동통신 시대가 열리면 대규모 데이터에 대한 처리 능력은 더 중요해진다. 

 

‘빠르게, 효율적으로’가 주류였던 이전과 달리 이제는 시간당 데이터 처리량을 높이는 게 목표다.

 

프로세서 등 시스템온칩(SoC)의 기초가 되는 설계구조(Architecture)부터 메모리, 후공정까지 반도체 기술의 전반이 이 흐름을 따라가고 있다.

 

 

아키텍처, 더 많은 데이터를 처리하라

 

 

삼성전자는 지난 8월 열린 ‘핫칩스2018(Hop Chips) 2018’ 컨퍼런스에서 자체 마이크로 아키텍처 ‘엑시노스 M3’을 발표했다.

 

M3과 전작 ‘M2’ 아키텍처의 가장 큰 차이점은 복호화 폭(Decode wide), 즉 코드를 분석할 때의 명령어 수다. 

 

삼성전자는 신경망 회로를 이용, 다음 조건문이 어떤 내용일 지 프로세서가 미리 추론(branch prediction)하고 해당 값을 선취(pre-fetch)하도록 했다. 캐시메모리에 저장하는 명령 대기열도 2배로 늘렸다. 

 

이를 통해 M3 아키텍처는 동작주기(clock) 당 M2 아키텍처보다 0.5배 많은 6개의 코드를 풀어낸다. 한번에 그만큼 더 많은 일을 하는 셈이다.

 

세계 모바일 애플리케이션프로세서(AP) 아키텍처 시장의 90%를 차지하고 있는 Arm도 같은 행보를 보이고 있다. 

 

▲ARMv8.0-A 기반 ‘코어텍스-A72’와 ARMv8.2-A 기반 ‘코어텍스-A75’ 비교. 파란색 네모가 쳐진 캐시 메모리 부분이 가장 큰 차이점이다./Arm, KIPOST 재구성

 

Arm은 지난해 출시한 고성능 프로세서 아키텍처 ‘코어텍스(Cortex)-A75’부터 ARMv8.2-A 기반 아키텍처를 적용했다.

 

ARMv8.2-A의 가장 큰 특징은  ‘다이나믹(DynamIQ)’이다. 이 기술은 코어의 구성이 정해져있었던 ‘빅리틀(big.Little)’과 달리, 단일 클러스터(일종의 컴퓨팅 영역) 내 코어의 구성을 최대 8개 내에서 자유롭게 설정할 수 있도록 했다. 

 

캐시(Cache) 구조도 2단계에서 3단계로 확대, 프로세서와 메모리 간 데이터 병목현상을 줄였다. 이전까지는 코어 근처에 자주 사용하는 데이터를 임시 저장하는 1단계(L1) 캐시, 코어 바깥에 외부 코어들과 공유하는 L2 캐시가 있었지만 코어텍스 A-75부터는 코어 근처에 L1와 L2, 외부에 L3을 뒀다. 

 

Arm 관계자는 “‘빅리틀’이 전력 효율성에 초점을 맞춰 개발됐다면, ‘다이나믹’은 전력 효율성은 물론 성능 개선의 한계를 푸는 데 중점이 맞춰졌다”며 “자율적으로 전원을 관리하고, 작업 부하량에 따라 자동으로 메모리가 할당되게 했다”고 말했다.

 

복호화 폭도 늘렸다. Arm의 최신 고성능 아키텍처 ‘코어텍스(Cortex)-A76’의 복호화 길이(decode wide)는 4개로 전작 ‘코어텍스-A75’보다 1개, ‘코어텍스-A73’보다 2배 많다.

 

 

메모리·후공정, 대역폭을 넓혀라

 

 

메모리 업계에서도 시간당 데이터 처리량을 높이려 하고 있다. 현재의 메모리는 저장된 모든 내용을 행으로 전부 읽은 다음에야 원하는 내용을 고를 수 있다. 이 구조로는 시간당 데이터 처리량을 늘리기 어렵다. 

 

저장된 내용을 행(왼쪽에서 오른쪽)과 열(위에서 아래로)로 읽을 수 있는 메모리 구조가 개발되고 있지만 좀처럼 진전이 없다. 수많은 데이터 중 원하는 부분만 골라 읽기도 어렵다. 

 

때문에 업계는 메모리와 프로세서를 가깝게 배치하고, 메모리의 입출력(I/O)을 높이는 데 집중하고 있다. 프로세서와 실리콘 인터포저 기판에 함께 패키징되는 고대역폭메모리(HBM)가 대표적이다. 

 

▲SK하이닉스의 HBM2 설계구조. 16개의 가상 채널로 분리된 D램이 4단 적층됐다./SK하이닉스

 

HBM2는 8Gb 64비트 D램이 4단, 혹은 8단 적층된 형태다. 각 D램은 16개의 가상 채널로 분리, 독립적으로 동작한다. 즉 전체 버스 대역폭은 전체 가상 채널 수 16개에 64비트를 곱한 1024비트가 된다. 

 

하나의 층에 데이터가 가로로 저장된다면, 읽을 때는 각 층(64비트)에서 4비트씩, 세로로 접근하게 된다. 한 번에 256비트를 읽을 수 있는 셈이다. 

 

IBM은 새로운 메모리 구조를 개발 중이다. 커넥터 기술을 활용, 서로 다른 종류의 데이터를 여러 종류의 메모리에 효율적으로 저장하겠다는 것이다. 중앙처리장치(CPU)가 고성능 신호 인터페이스의 중간에 있게 되고, 커넥터로는 다목적 군용 칼인 ‘스위스 군용 칼(Swiss Army Knife)’이라는 기술이 쓰인다. 

 

이 구조는 여러 데이터를 연속적으로 받을 때(스트리밍)할 때 용이하지만, 갑자기 다운로드 용량이 급증하면 오히려 효율성이 떨어진다. IBM은 이를 감안해 대량의 데이터를 처리할 수 있는 방안에 대해서도 연구 중이다. 

 

메모리와 프로세서의 후공정도 바뀌고 있다. 늘어난 I/O 숫자를 감당하기 위해 HBM과 프로세서는 기존 인쇄회로기판(PCB)이 아닌, 실리콘 인터포저 위에서 서로 연결된다. 애플리케이션프로세서(AP) 등 I/O 밀도가 높아지고 있는 반도체는 이제 팬아웃웨이퍼레벨패키지(FoWLP) 기술을 활용한다. 

 

 

시스템은 통합이 아닌 분리… 통합은 AI가

 

 

여러 반도체 기능을 서로 합쳐 부품원가(BOM)와 크기(Footprint)를 줄이는 데 초점을 맞춰 개발돼온 시스템도 서서히 분리되고 있다. 각 부품의 역할이 커지면서 통합이 과부하의 원인이 될 수 있다는 우려에서다. 

 

예를 들어 사물인터넷(IoT) 시스템은 서로 다른 수많은 단말(Edge)을 서로 연결해야한다. 각 장치에서 나오는 데이터도 속도나 주파수, 유형 등이 다른데, 수많은 데이터를 클라우드에서 모두 해결하게 되면 트래픽 증가를 피할 수 없다. 클라우드와 함께 단말 자체의 컴퓨팅 능력이 강조되는 이유다. 

 

자율주행도 마찬가지다. 카메라는 물론, 레이더나 라이다(LiDAR) 등 필수 센서들은 각각 막대한 양의 데이터를 생성한다. 이를 전부 중앙 시스템에 맡기기에는 한계가 있다. 데이터를 압축해 프로세서에 전송하고, 또 프로세서가 이를 복호화해 해석하기에는 오랜 시간이 걸리기 때문이다.

 

완성차 업계도 일부는 장치 내에서 처리하고, 나머지를 중앙 시스템으로 보내 처리하게 하는 방안을 염두에 두고 있다. 

 

서로 다른 부품에서 나오는 여러 유형의 데이터를 통합하는 것은 중앙 시스템이나 CPU가 아닌 AI가 도맡을 전망이다.

 

▲Arm의 ML 프로세서 구조./Arm 

 

Arm은 최근 AP에 포함됐던 기계학습(ML) 프로세서 설계자산(IP)을 각 시장에 맞게 출시했다. 

 

이 ML 프로세서는 연산용 MAC(multiple-accumulate) 엔진과 프로그래밍할 수 있는 엔진, 제어 통합 등이 포함된 직접메모리접근(DMA) 엔진 등이 포함됐다. 연산 엔진은 총 16개로, 각 연산 엔진이 기능별로 분리돼 작동하게 프로그래밍할 수 있다.

 

모바일 기기를 기준으로 초당 4.6조 이상의 연산을 수행할 수 있고, 소비전력당 초당 3조 이상 연산(TOPs/W) 효율성을 갖고 있어 저전력 IoT 기기에도 적용 가능하다.

 

Arm에 따르면 현재 여러 협력사들이 이 IP를 기반으로 범용 AI 및 ML 프로세서를 개발하고 있다. 

 

업계 관계자는 “첨단 공정으로 얻을 수 있는 가장 큰 이점은 전력 소모량인데, 공정 난이도가 높아질수록 개선 정도가 점점 낮아지고 가격은 올라가면서 아예 설계구조를 바꾸려는 움직임이 일고 있는 것”이라며 “데이터를 압축하고 이를 다시 푸는 인터페이스의 역할도 중요해질 것”이라고 말했다. 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지