기술명 'Ouroboros'...음성 합성 알고리즘 연산 속도↑

미국 샌프란시스코에서 개최된 반도체 학술회의 핫칩스(HOTCHIPS)에서 알리바바 산하 다모아카데미가 '차세대 AI 음성 FPGA 칩 기술 'Ouroboros'를 발표했다. 음성 생성 알고리즘의 연산 효율을 100배 이상 높여주는 기술이다. 

다모아카데미에 따르면 AI 음성 합성 알고리즘 웨이브넷(WaveNet)이 1초의 음성을 생성하기 위해, CPU와 GPU는 50초의 연산 시간을 필요로 한다. 하지만 이 Ouroboros을 FPGA 환경에 적용하면 0.3초 만 있으면 된다. 

기존 한계를 돌파한 기술로서 맞춤형 하드웨어에 적용돼 클라우드 서버를 대체할 수 있을 것으로 분석됐다. 이를 통해 네트워크 연결과 클라우드 서비스 의존없이 AI 음성 생성이 가능해진단 것이다. 

ASIC 성능 시뮬레이션 평가에 따르면 Ouroboros는 실시간으로 웨이브넷 등 업계 주요 문자음성전환(TTS, Text-to-Speech) 알고리즘에 대해서 실시간 음성 합성이 가능하다. 이 Ouroboros 기술은 다모아카데미가 지난 7월 발표한 차세대 음성 합성 알고리즘 KAN-TTS에도 적용됐다. 이 알고리즘을 통해 상용 시스템 속 음성 합성과 원시 음성의 유사도가 97%까지 높아졌다. 

 

다모아카데미가 AI 음성 칩 기술을 발표하고 있다. /다모아카데미 제공
다모아카데미가 AI 음성 칩 기술을 발표하고 있다. /다모아카데미 제공

 

이 칩 기술은 음성 합성 이외 AI 음성 인식도 지원한다. 이 AI 칩을 기반으로 개발된 새로운 AI 스피커 티몰 지니(Genie)의 출시도 이뤄질 전망이다. 

2017년 10월 알리바바그룹이 다모아카데미를 출범한 이후 지난해 9월 알리바바는 칩 기업 '핑터우거'를 설립하는 등 관련 칩 투자를 늘리고 있다. 또 중국 칩 기업인 C스카이를 인수해 다모아카데미 칩 연구진과 통합했다. 

다모아카데미는 AMD, ARM, 엔비디아, 인텔 등 여러 칩 기업에서 경험을 쌓은 인력이 몸담고 있으며 자동차, 가전, 산업 등 여러 영역의 지능형 사물인터넷(IoT) 칩 플랫폼을 개발하고 있다. 

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지