AI가속기 등장, 솔루션은 필수
10TOPs칩 만들어도 완성도 달라져
자율주행 '안전'과도 직결

서버용 GPU 시장의 강자 엔비디아의 무기는 단순한 칩 설계 능력이 아니다. 엔비디아는 '쿠다(CUDA)'라는 강력한 SW(소프트웨어) 스택을 앞세워 점유율을 높이고 있다. 엔비디아의 경쟁력은 사용자가 칩을 어떻게 활용할지에 대한 해법을 포괄한다.

팹리스(반도체 설계) 업계가 AI(인공지능) 시대를 맞아 다시 한 번 솔루션에 주목하고 있다. 특정 목적을 위한 AI 가속기들이 속속 등장하고, 고정된 알고리즘으로 몇 년이나 가는 시대는 끝났다. 칩만 만들고 제공하는 기존 팹리스 모델로는 살아남기 어려운 이유다.

변화하는 AI시대, 팹리스 업계 솔루션화 흐름을 짚어봤다.

 

라데온 RX 6900 XT 그래픽카드. /AMD
라데온 RX 6900 XT 그래픽카드. /사진=AMD

필수적인 흐름이 된 AI 시장의 ‘솔루션’

AI 반도체 시장에서 솔루션화는 필수적인 흐름이 되고 있다.

AI는 SW(소프트웨어)인 알고리즘과 HW(하드웨어)인 반도체가 유기적으로 맞물려 돌아간다. 단순히 트랜지스터를 많이 채워 넣고, 좋은 성능의 하드웨어만 제공하는 것으로 AI 반도체는 완성되지 않는다. 칩 범용화도 어렵고, 성능을 최대치로 끌어낼 수도 없기 때문이다. 

정구민 국민대 전자공학부 교수는 "2017년 화웨이가 AI 칩에 텐서플로우 등 관련 소프트웨어를 모두 올려서 테스트한 것이 업계에 상당한 충격이었다"며 "AI 칩셋에서 돌아갈 AI 엔진 개발은 반드시 유기적으로 맞물려야 한다. 소프트웨어 스택이 중요해지는 이유"라고 말했다. 

 

화웨이의 메이트 X2 이미지. /화웨이 제공
화웨이의 메이트 X2 이미지. /사진=화웨이

화웨이는 2017년 스마트폰용 AI 칩셋 '기린 970'을 상용화하며, API(애플리케이션 프로그래밍 인터페이스)뿐 아니라 카페⋅텐서플로우 라이트 등 기본 AI 프레임워크(Framework)까지 지원했다. 

프레임워크는 애플리케이션 개발에 바탕이 되는 소프트웨어 환경을 말한다. 소프트웨어의 구체적 기능 설계⋅구현을 재사용 가능하도록 협업화된 형태로 제공된다. 구글이 2015년 오픈소스로 공개한 텐서플로우(TensorFlow)⋅페이스북 AI 연구팀이 만든 파이토치(PyTorch)⋅2013년 버클리 인공지능 연구소를 주축으로 개발된 카페(Caffe) 등이 대표적이다.

화웨이뿐 아니라 해외 AI 반도체 업계 역시 이러한 프레임워크를 지원하는 좋은 소프트웨어 스택 마련을 필수적인 흐름으로 보고 인재를 영입하고 있다. 

왜 그럴까. 먼저 AI 가속기의 등장이다. 

AI 가속기는 AI 알고리즘을 빨리 처리하기 위해 설계된 칩을 말한다. FPGA(프로그래머블반도체)⋅ASIC(주문형반도체)⋅GPGPU(범용그래픽처리장치)등이 대표적이다. 흔히 쓰는 x86 기반의 CPU는 AI 알고리즘을 처리하기엔 비효율적이기 때문에, 특정 목적에 맞게 설계된 AI 가속기를 사용해 고성능⋅저전력 제공한다. 딥러닝⋅병렬처리에 맞춰 하드웨어가 특화되는 동시에 이에 맞물리는 소프트웨어 스택이 필수가 되는 것이다. 

김진국 실리콘아츠 이사는 "하드웨어 단에서 과거에는 하나의 칩만 제공하고 공급하는 선에 머물렀다면 AI 가속기가 등장하면서 칩을 사용하기 위한 환경까지 구축해 제공하는 것이 중요해졌다"며 "SDK⋅컴파일러(compiler)를 포함한 다양한 플랫폼 등 소프트웨어 영역의 일들이 많이 중요해질 것"이라고 전했다. 

 

맥심인터그레이티드의 AI가속기가 포함된 MCU 'MAX78000'. /마우저
맥심인터그레이티드의 AI가속기가 포함된 MCU 'MAX78000'. /사진=마우저

더욱이 AI알고리즘은 다양한 학습 환경에서 여러 프로그래밍 언어로 개발된다. 각각의 프로그래밍 언어를 지원하지 않으면 범용화 자체가 어렵다.

한 팹리스 업체 CTO(최고기술책임자)는 "아주 범용적이진 않지만, 특정 범용적인 프로그램을 AI 가속기에 맵핑(mapping)해서 문제를 풀고자 하는 것"이라며 "딥러닝⋅이미지 등을 잘 처리하도록 소프트웨어 스택을 잘 쌓아서 전달하는 것이 중요해졌다"고 설명했다. 신동주 모빌린트 대표 역시 "AI 반도체는 굉장히 다양한 딥러닝 네트워크를 돌리게 된다"며 "AI 자체는 딥러닝이나 AI로 좁혀진 분야임에도 그 분야 내에서도 다양한 분야⋅모델⋅고객들이 있기 때문에 그에 맞는 소프트웨어 스택이 굉장히 중요하다"고 강조했다.

칩 경쟁력과도 직결

더욱이 좋은 소프트웨어 스택은 칩 경쟁력과도 직결된다. 컴파일링의 완성도는 칩 완성도⋅정확도와 직결되기 때문이다. 

컴파일링은 C언어를 기계어로 번역하는 것을 말한다. 컴퓨터에게 어떤 의미도 없는 프로그래머들의 코드를 기계어로 번역하는 것이다. 한글을 중국인에게 읽히기 위해 중국어로의 번역이 필요하듯, 기계어로의 번역 이후해야 C언어는 0⋅1의 집합으로 변화한다. 

 

AI가속기는 뇌 구조를 본 딴 다양한 형태로 개발되고 있다.
AI가속기는 뇌 구조를 본 딴 다양한 형태로 개발되고 있다.

그런데 누구나 번역을 할 수 있지만 번역가의 능력에 따라 성능 차이가 벌어질 수 있다. 딥러닝 알고리즘의 속도를 쫓아가면서도 알고리즘을 정확히 이해하는 컴파일러를 제공하지 않는다면 칩 성능은 최대치로 구현되지 않는다. 컴파일링 과정에서 딥러닝 프레임워크를 효율적으로 지원하지 못한다면, 특정 프레임워크 한두 개만 지원하는 데 그치기 때문이다. 

10TOPs(초당 10조회) 칩을 만들었는데 실제 딥러닝을 돌렸을 때 10TOPs의 성능을 발휘하지 못하는 경우가 발생하는 것이다. 실제 AI 추론(Inference)을 실행했을 때 1초에 한 장밖에 처리하지 못하기도 하고, 반면 다른 칩은 10장씩 처리하는 등의 차이가 발생하게 된다. 

한 팹리스 업체 CTO는 "칩 성능을 최대치로 내려면 컴파일러가 딥러닝 계산들을 골고루 잘 하도록 해 줘야 한다"며 "문제는 컴파일러가 이를 고르게 배치하는 것이 생각만큼 쉽지 않고, 여기서 칩 완성도 차이가 난다"고 말했다. 

더욱이 자율주행에서 0.1%의 차이는 안전과 직결된다. 한 팹리스 업체 대표는 "딥러닝 알고리즘이 천 개가 있다고 가정한다면 처음에는 알고리즘 한두 개를 그것에 맞춰서 하드웨어를 돌릴 수가 있다"며 "잘 안 되는 코너케이스(흔하지 않은 돌발상황) 등까지 잘 컴파일링해서 돌리는 게 칩 완성도를 결정짓는 어렵고도 중요한 부분"이라고 강조했다.

 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지