온디바이스AI, NPU 못지 않게 D램도 업그레이드
D램, ‘커머디티’에서 ‘스페셜티’로

AI(인공지능) 반도체 시장 성장이 메모리 반도체의 수주형 사업화를 가속시키고 있다. AI 연산장치와 메모리 간 물리적 거리를 좁히고 대역폭을 넓혀 빠르게 데이터를 주고 받는 특성이 강조되면서 기존 공급자 중심의 사업에서 벗어나는 것이다. 

HBM(고대역메모리)이 촉발한 이 같은 흐름은 LLW(저지연와이드 I/O) D램으로 이어지며 서버에서 단말기 시장까지 확산할 전망이다. 

LLW D램은 프로세서 바로 옆에 2.5D 방식으로 패키지된다. 덕분에 빠르게 데이터를 주고받을 수 있다. /자료=삼성전자
LLW D램은 프로세서 바로 옆에 2.5D 방식으로 패키지된다. 덕분에 빠르게 데이터를 주고받을 수 있다. /자료=삼성전자

 

CIS에 일반화 된 LLW D램

 

올해 초 삼성전자가 출시한 ‘갤럭시S24’는 1세대 ‘온디바이스AI’ 스마트폰을 표방한다. 단순히 AP(애플리케이션프로세서)에 NPU(신경망처리장치)를 내장하는 것에서 그치지 않고, LLM(거대언어모델)을 구동할 만큼 AI 성능이 개선됐다. 덕분에 인터넷에 연결하지 않고도 내부 자원만으로 통번역 등 AI 기능을 자연스럽게 활용할 수 있다. 

다만 최근 국내외 출시된 온디바이스AI 스마트폰들은 최대 10B(100억개) 파라미터 수준의 LLM을 구동할 정도로 경량화 된 버전이다. 생성형 AI의 표준으로 꼽히는 ‘GPT3’가 1750억개 파라미터로 구성된다는 점을 감안하면 완성도에서 떨어질 수 밖에 없다. 

따라서 향후 온디바이스AI의 발전방향은 더 많은 수의 파라미터를 가진 LLM을 구동할 수 있을 만큼 NPU 연산능력을 높이는 쪽으로 질주할 전망이다. 물론 NPU 성능만을 높여서는 AI 연산을 원활하게 수행할 수 없기에 이에 걸맞는 메모리도 필요하다. 

마치 AI 서버 내의 GPU(그래픽처리장치)가 HBM과 데이터를 주고받으며 AI 연산을 수행하는 것 처럼, 스마트폰⋅PC도 HBM에 버금가는 메모리가 필요하다는 의미다. 최근 등장한 LLW D램은 이 같은 고민에서 출발한다. 

퀄컴 '스냅드래곤8 젠3'. /사진=퀄컴
퀄컴 '스냅드래곤8 젠3'. /사진=퀄컴

LLW D램은 프로세서와 D램을 2.5D 패키지 기술로 연결해 대역폭을 크게 높인 제품이다. 모바일에 쓰이는 LPDDR5의 I/O(입출력) 단자수는 64개 정도다. 반도체 업계는 LLW D램은 애플리케이션에 따라 이를 8배, 혹은 그 이상으로 늘려 고대역폭을 확보할 계획이다. 이를 통해 AI 연산장치의 학습 및 추론 속도를 획기적으로 높일 수 있다.

다만 LLW D램은 모바일 기기에 탑재되고 저전력 특성이 중요하다는 점에서 GDDR 보다는 LPDDR 기반으로 설계될 가능성이 높다.

이 같은 방식은 AI는 아니지만 CIS(이미지센서) 분야에서 이미 통용된 바 있다. 소니⋅삼성전자가 공급하는 하이엔드급 CIS는 아날로그칩(픽셀부)과 백플레인(프로세서) 사이에 D램이 샌드위치처럼 끼어 있다. 3단 적층 구조인 것이다. 이 D램은 아날로그칩이 받아들이 화상 정보를 재빠르게 임시 저장했다가 프로세서가 감당할 수 있을 만큼 조금씩 흘려주는 역할이다. 

마치 대형 댐이 강수량을 한번에 저장했다가 일정하게 하류로 흘려 보내는 것과 유사하다. 덕분에 속도가 느린 프로세서가 화상 정보를 놓치지 않고 온전하게 처리할 수 있다. 스마트폰 카메라에서 1초에 1000장 이상의 초고속 촬영이 가능한 비결이다. 

CIS의 이러한 구조는 프로세서와 D램 간 물리적 거리를 좁히고 대역폭을 넓혀 데이터 처리량을 늘렸다는 점에서 앞으로 나올 LLW D램과 유사하다. 

3단 적층 CIS의 구조. LLW D램의 논리와 유사하다.
3단 적층 CIS의 구조. LLW D램의 논리와 유사하다.

가장 최근에는 애플이 ‘비전프로'에서 R1용 메모리로 LLW D램을 활용하기도 했다. R1은 비전프로에 장착된 12개의 카메라, 5개의 센서에서 수집된 정보를 실시간 처리하는 칩이다. 메인 프로세서인 M2와는 별개로 탑재됐으며, 애플이 직접 설계했다. 시각 정보를 실시간 처리해야 하는 만큼 R1도 대역폭 높은 메모리가 필요한데, 여기에 2.5D 방식으로 패키지된 LLW D램은 I/O 개수가 512개다. 기존 LPDDR5 대비 8배나 많다. 

 

D램, ‘커머디티’에서 ‘스페셜티’ 시장으로

 

LLW D램이 이처럼 특정한 애플리케이션에 제한적으로 사용되다 보니 개발 단계에서 철저하게 커스터마이징 과정이 수반될 수 밖에 없다. SK하이닉스가 엔비디아와의 긴밀한 협력을 통해 HBM3에 이어 HBM3E 시장까지 독점에 가까운 영향력을 발휘하는 것처럼 LLW D램 시장도 고객사 눈높이를 만족하는 회사가 독점하는 구조가 될 가능성이 높다. 

JEDEC(국제반도체표준협의기구) 표준에 맞게 제품을 생산하기만 하면 고객사들이 3사 제품 중 골라 사던 기존 ‘커머디티’ D램 시대와는 전혀 다르다. D램 산업에 고착화 된 3사 점유율이 HBM 시장에서는 전혀 다른 양상으로 펼쳐지는 이유다.

이는 디스플레이 시장에서 이미 목격된 흐름이다. 최근 디스플레이 산업의 중심은 TV용 LCD 패널에서 중소형 OLED로 완전히 갈아탔다. TV용 패널이 표준에 맞게 재고를 축적했다 쇼핑 시즌에 밀어내는 커머디티였다면, 중소형 OLED는 고객사 기반이 중요한 수주형 산업이다. 삼성디스플레이가 애플을 등에 업고 나홀로 수조원의 영업이익을 남길 수 있는건, 디스플레이 산업이 수주형으로 변해가는 흐름에 가장 잘 적응한 덕분이다. 

SK하이닉스가 개발한 HBM3 D램. /사진=SK하이닉스
SK하이닉스가 개발한 HBM3 D램. /사진=SK하이닉스

물론 D램 시장의 90% 이상은 아직 DDR5 등 일반 커머디티 D램이 차지한다. 그러나 수익성 측면에서 HBM 등 수주형 제품이 커머디티를 압도하고 있고, 매출 비중 역시 올해 20% 이상을 차지할 만큼 성장할 것으로 예상된다. 

한 반도체 산업 전문가는 “상대적으로 생산능력이 부족한 SK하이닉스가 HBM 시장에서 선전할 수 있는 것도 고객사 대응으로 생산능력 열세를 만회하려 한 덕분”이라며 “공급자 중심 마인드가 강한 삼성전자에는 기대할 수 없는 서비스”라고 말했다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지