슬라이싱 GPU 기반 인프라 서비스 ‘AI SERV’ 출시

 

AI 추론에 특화된 고성능의 GPU 인프라를 사용량에 맞게 보다 합리적인 비용으로 활용할 수 있게 됐다.

kt cloud(www.ktcloud.com, 대표 윤동식)는 슬라이싱 기술을 GPU에 적용한 AI 추론 전용 인프라 서비스 ‘AI SERV’를 출시했다고 16일 밝혔다.

초거대 AI 분야에서 학습 영역은 단기간 집중적으로 대용량, 고사양의 GPU가 필요한 것과는 달리 추론 영역은 적은 양의 GPU를 끊김 없이 상시 사용해야 하는 특성을 갖고 있다. 그런 만큼 학습에 사용한 인프라를 그대로 추론 인프라로 활용할 경우 필요 이상의 비용 부담이 발생해 왔다.

kt cloud가 이번에 출시한 AI SERV는 AI 개발, 학습을 마치고 AI 서비스를 제공 중인 AI 전문기업, 스타트업 등이 고성능 GPU 인프라를 각 서비스에 필요한 만큼만 분할해 최적의 양을 사용할 수 있는 것이 특징이다. 또 비용 효율성뿐 아니라 성능, 호환성 등 추론 영역에서 가장 중요한 조건까지 갖추고 있어 추론형 AI 인프라 시장의 혁신을 이끌 것으로 기대된다.

kt cloud의 AI SERV에 적용된 슬라이싱(Slicing) 기술은 기존에 한 장으로 공급하던 GPU 서비스를 5분할해 0.2장 단위로 제공한다. 최소 사용 가능한 GPU 단위가 작아진 만큼 필요한 때 필요한 만큼의 인프라를 사용할 수 있어 가격 부담이 줄어듦은 물론, 다양한 상황에 맞춰 탄력적이고 가변적인 활용이 가능하다.

또 종전 슬라이싱 기술은 분할된 단위의 GPU에서 성능 열화가 발생할 수 있다는 단점이 있었지만, AI SERV는 슬라이싱 분할에도 성능 열화 없이 인프라를 100% 활용할 수 있다는 강점까지 갖췄다.

kt cloud의 AI SERV는 타사의 유사 서비스 대비 성능 및 호환성 측면에서도 강점을 보인다. 엔비디아 A100 칩을 활용, 경쟁사의 최신 추론형 인프라 서비스와 비교해도 최소 두 배 빠른 연산 속도를 자랑한다. 엔비디아 쿠다(CUDA) 아키텍처 기반의 높은 호환성과 확장성도 강점이다.

kt cloud는 향후 AI SERV에 사용자의 손쉬운 인프라 확장 지원을 위한 모니터링 및 컨테이너 이미지 클로닝(Cloning) 기능 등을 추가하는 한편, 부하 발생시 인프라를 자동 확장시키는 ‘오토 스케일링’ 기능을 도입하는 등 서비스를 지속적으로 고도화해 나갈 계획이다.

kt cloud는 지난 2022년 최초의 종량제 인프라 서비스 HAC(Hyperscale AI Computing)을 출시하고, 반도체 설계 기업 ‘리벨리온’, AI 인프라 솔루션 기업 ‘모레’ 등과 협업해 AI프레임 워크, AI 클라우드 반도체 칩 등을 개발하는 한편, 지난 6월에는 국내 최초의 고성능, 저전력 NPU 인프라 서비스를 선보인 바 있다. kt cloud는 향후 기업 대상의 NPU 인프라 서비스, 학습용 GPU 신규 서비스 등을 출시하며 ▲저비용 ▲고성능 ▲고효율의 AI 인프라 서비스 라인업을 강화한다는 방침이다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지

키워드

Tags #kt cloud #AI