오픈소스 마이크로프로세서 RISC-V(리스크 파이브)가 기존 시장을 장악하던 프로세서 성능을 뛰어넘는다는 벤치마크 결과가 나왔다. 이미 RISC-V는 전력 소모량에서 강점을 가진다는 평가를 받고 다양한 IoT용 칩셋에 속속 적용되고 있다.

이와더불어 국내외에서 새로운 마이크로프로세서 아키텍처들이 소개되고 있다. 스마트폰 AP(애플리케이션 프로세서) 업계는 Arm이 장악하는 것으로 결론이 났다. 앞으로 확대될 딥러닝, AI(인공지능), 5G망 통신 및 IoT 등 대량 데이터 처리와 저전력, 병렬처리 시장은 이제부터 시작이다. 어떤 프로세서가 지배력을 가질 수 있을까. 키워드는 ‘단순화’다. 

RISC-V, 벤치마크서 Arm Cortex-A9 프로세서보다 월등한 속도, 저전력 구현

미국 마이크로매직은 최근 64비트 RISC-V 코어 기반 자사 프로세서 클럭 성능이  1.1V에서 5GHz를 기록했다고 발표했다. CPU 성능 벤치마크에서는 13000코어마크(CoreMark)를 달성했다고 밝혔다. 싱글보드 컴퓨터 오드로이드(Odroid) 보드에서 실행한 코어 데모는 0.8V에서 4.327GHz, 1.1V에서 5.19GHz를 달성했다.

EEMBC 벤치마크는 마이크로매직의 RISC-V 기반 프로세서가 Arm 아키텍처를 기반으로 설개한 애플 ‘M1’, Arm 코어텍스A9(Cortex-A9)보다 성능이 월등함을 보여준다.  

마이크로매직의 RISC-V 기반 프로세서와 애플 M1, Arm Cortex-A9 벤치마크 비교.
마이크로매직의 RISC-V 기반 프로세서와 애플 M1, Arm Cortex-A9 벤치마크 비교.

1코어, 1와트당 성능이 중요한 이유는 5G 통신 시대의 엣지 디바이스(일반 소비자가 사용하거나 접점에 있는 기기들)들은 대부분 배터리를 사용하기 때문에 전력 소모는 최소화하면서 데이터 처리 속도는 빨라야 하기 때문이다. 

RISC-V는 속도와 저전력을 모두 갖췄기 때문에 특히 AI나 딥러닝을 구현하는 신경망(Neural Network) 엔진(가속기)에 대거 채택되고 있다. 삼성전자의 RFIC(무선주파수 칩), 엔비디아와 테슬라의 AI가속기 등이 RISC-V 기반으로 개발되고 있다.  맥심인터그레이티드와 르네사스가 RISC-V 기반 신경망 가속기를 탑재한 MCU(마이크로컨트롤러)를 출시했고, 마이크로칩과 래티스반도체도 RISC-V 기반 프로그래머블반도체(FPGA)를 선보였다.

RISC-V가 이같은 성능을 달성할 수 있는 이유는 명령어를 처리할 때 소요되는 CPU 클럭 사이클 수인 CPI(Clock cycles per instruction)가 적기 때문이다. CPI가 적을수록 속도는 빠르고, 전력소모량은 줄어든다.

CPU 성능을 나타내는 MIPS(초당 100만 명령을 처리량) 계산식. 분모의 CPI가 적을수록 MISP가 높아지므로 성능이 좋은 것으로 평가된다. /자세한 사항은 커널연구회(https://www.kernel.bz/kernel-arch) 참조

RISC-V는 명령셋이 x86, Arm, MIPS에 비해 효율적으로 설계돼 CPI를 효율화 했다는 평가를 받는다. 이미 인텔 x86이 사용하는 명령셋 CISC에 비해 명령셋 수가 적은 RISC 기반 Arm이 저전력 구현에 탁월해 모바일 시장을 석권한 바 있다. 

RISC-V는 Arm이나 MIPS 아키텍처와 비교해도 효율성이 좋다. RISC-V 명령셋 구조를 보면, 연산부호(Opcode)가 최하위 비트에 위치해 있어 연산 대상(Oprand)들의 숫자가 늘어나도 명령셋 설계에서 일관성을 띌 수 있다. 단순한 4비트 프로세서의 엣지 디바이스부터 복잡한 64비트 데이터센터에 이르는 접점마다 유연하게 호환성을 구현할 수 있다는 뜻도 된다.    


국내 스타트업 모르미, 새로운 차원의 프로세서 아키텍처 소개

국내에서도 자체 아키텍처를 설계하는 기업들이 등장하고 있다. 

모르미는 프로세서를 아무리 병렬화 시켜도 병렬처리가 가능한 부분은 전체 컴퓨터 프로그램의 5%에 불과하다는 일명 ‘암달의 저주’를 뛰어넘어 완전한 병렬프로세싱을 시도하는 회사다. 컴퓨팅 업계의 상식을 뒤엎는 단순한 구조의 프로세서를 설계했다. (‘암달의 저주’ 극복한 프로세서 상용화 될까… 모르미의 도전 참조
 

모르미의 한주기 병렬 프로세서(EOPPP) 아키텍처 구조. 
모르미의 한주기 병렬 프로세서(EOPPP) 아키텍처 구조. 

일련의 명령어 셋  루프가 가지고 있는 종속성은 이전 반복의 하나 이상의 결과에 종속된다. 데이터 종속성은 병렬화의 진행을 가로막는다. 

이 루프는 일반적으로 병렬화 할 수 없다고 믿어져 왔다. 왜냐하면 CUR 이 각 루프를 도는 동안 P1, P2, P3, P4에 종속되기 때문이다. 각 반복이 그 이전 결과에 종속되므로 병렬화할 수 없다.

EOPPP의 처리 방식. /모르미

하지만 한 주기 병렬 처리 장치를 사용할 경우, 병렬 처리 시 발생하는 데이터 종속성 회피하고 do-while 루프를 매 주기마다 연속적으로 수행할 수 있다는 설명이다. 

이 회사가 구현한 프로세서는 연산부가 덧셈부(Adder)로만 구성돼 구조가 단순하지만 코드병렬처리, 루프병렬처리 등 경로망에서는 어떤 병렬처리도 가능하다는 것이다. 

EOPPP의 Data path(경로망). /모르미

모르미는 현재 이 아키텍처 구조로 32코어 프로세서를 구현했고, 내년에는 1024코어로 확대한다는 계획이다. 

현재 HW와 컴파일러 개발을 완료했고, 어셈블러와 링커를 내년 1분기 중에 내놓을 예정이다. 또 각종 개발 언어와 호환성이 있는 API를 계속 제공할 계획이다.

모르미 아키텍처 기반 프로그래머블반도체(FPGA)와 인텔 'i7'칩 비교. /모르미

이준범 모르미 대표는 “기존 CPU, GPU, NPU 등 어떤 용도에서도 사용가능한 아키텍처 구조”라며 “모뎀칩, AI(인공지능), 서버용 가속기, 슈퍼컴퓨터용 시뮬레이터 등에 적합할 것”이라고 봤다.

 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지