'메모리 장벽' 해결책으로 꼽혀... 불과 3년만에 낸드·D램과 동등선상
퍼시스턴트 메모리-SSD 모두 성공 사례 줄이어... 바이두·ITX 등

세계에서 5번째로 강력한 슈퍼컴퓨터 '프론테라'에는 인텔의 2세대 인텔 제온 스케일러블 프로세서와 인텔 옵테인 DC 퍼시스턴트 메모리가 들어있다./인텔
세계에서 5번째로 강력한 슈퍼컴퓨터 '프론테라'에는 인텔의 2세대 인텔 제온 스케일러블 프로세서와 인텔 옵테인 DC 퍼시스턴트 메모리가 들어있다./인텔

인텔이 옵테인(Optane) 메모리를 내놓은 지도 3년이 지났다. 

출시 당시만 해도 옵테인 메모리는 D램도, 저장장치도 아니란 혹평을 들었다. 하지만 지금은 데이터센터를 구축하려는 모든 업체들이 인텔의 옵테인을 메모리·저장장치의 주요 선택지 중 하나로 둔다. 인텔의 옵테인으로 컴퓨팅 성능을 획기적으로 끌어올린 사례들도 끊이지 않는다.

자동차용 부품보다도 진입 장벽이 높다는 데이터센터 시장이다. 그럼에도 옵테인이 불과 3년만에 기존 D램·낸드와 어깨를 나란히 할 수 있었던 이유는 무엇일까. 데이터센터 업체들은 옵테인을 어떻게 활용했을까.

 

메모리 계층 구조를 재정립하다

역사적으로 CPU의 대역폭은 메모리보다 훨씬 빠른 속도로 향상돼왔다. 트랜지스터의 수는 매년 1.5배 증가했고, 멀티 코어 아키텍처 역시 발전을 멈추지 않았던 덕에 전보다 더 많은 명령어를 한 번에 처리할 수 있었다. 

CPU가 더 많은 명령을 처리하려면 저장장치에서 데이터를 가져오는 시간(대기 시간) 역시 줄어들어야 한다. 하지만 데이터가 CPU로 넘어오는 데 걸리는 시간은 좀처럼 줄어들지 않았다. CPU가 처리해야할 데이터는 많은데, 스토리지와 메모리가 이를 못 따라가다보니 병목현상이 생길 수밖에 없었다. 이를 메모리 장벽(Memory Wall)이라고 한다.

인텔의 옵테인은 기존의 메모리 계층 구조를 탈피, 메모리 장벽을 해결하기 위해 고안됐다. 

 

인텔은 옵테인으로 메모리 계층 구조를 재정립했다./인텔
인텔은 옵테인으로 메모리 계층 구조를 재정립했다./인텔

기존 메모리 계층 구조는 속도와 용량에 따라 크게 4계층으로 구성됐다. 가장 느리지만 용량은 제일 큰 HDD가 맨 아래 위치했고, 그 위에 ▲낸드 기반 SSD ▲D램 ▲CPU 내 캐시 메모리 등이 차례로 올라갔다. 예를 들어 CPU에서 데이터를 요청하면 캐시 메모리를 거쳐 D램→SSD→HDD로 가는 식이었다. 

이 구조로는 메모리 장벽을 해결하기가 어려웠다. 계층 구조를 구성하는 각 계층이 모두 비슷한 속도로 발전해야 전체 메모리-스토리지의 성능을 개선할 수 있었기 때문이다. HDD는 성능 발전 폭이 점점 좁아지고 있었고, 낸드와 D램은 속도와 용량 차이가 너무 컸다. 기본적으로 데이터의 이동 경로도 길었다.

옵테인은 D램의 속도와 낸드의 비휘발성 특징을 모두 가진 이단아로, 각 계층 사이의 격차를 메워 전체 메모리-스토리지가 더 나은 성능을 발휘할 수 있도록 한다. 메모리-스토리지의 성능이 개선되면서 CPU, 나아가 전체 시스템의 성능 또한 향상됐다.

가뜩이나 데이터센터 업계는 해마다 늘어나는 투자 비용이 늘 부담이다. 처리해야 하는 데이터가 급증하는 것만큼 CPU·메모리·스토리지의 성능도 높아져야 추가 투자를 피할 수 있다. 옵테인은 이들의 고민을 덜어줄 해결책이 됐다.

 

옵테인 DC 퍼시스턴트 메모리, 검색 엔진과 HPC를 사로잡다

옵테인 DC 퍼시스턴트 메모리(이하 퍼시스턴트 메모리)는 보다 D램에 가깝게 위치한다. ▲대용량 캐시메모리 역할을 하는 ‘메모리 모드’ ▲고속 SSD처럼 동작하는 ‘앱 다이렉트 모드’ ▲두 기능을 적절히 배합한 ‘듀얼 모드’ 등 세 가지 모드를 지원한다. 

메모리 모드에서 퍼시스턴트 메모리는 대용량 캐시 메모리 역할을 한다. 데이터를 읽을 때 먼저 D램을 검사한 다음 해당 데이터가 없으면 이 제품에 접근해 데이터를 가져가는 식이다.

바이두는 퍼시스턴트 메모리를 활용, 대규모 고성능 데이터 처리를 위한 분석 엔진인 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 처리 플랫폼 ‘BigSQL’을 개발했다. 

‘BigSQL’은 바이두의 검색 엔진에 쓰인다. 사용자가 한 번 검색을 실행할 때 마다 검색 엔진에서는 많은 일이 벌어진다. 해당 단어에 대한 검색 목록을 단순히 띄워주는 게 아니라 나오는 콘텐츠의 순서, 종류 등을 각각 구분해 화면에 표시해줘야하기 때문이다. 

사용자도, 데이터도 많지 않았을 때는 기존 D램-스토리지로도 충분했지만 시간이 지나면서 검색 요청(Query) 역시 빠르게 증가했다. D램을 더 설치해 원하는 성능을 내기에는 총 소유비용(TCO)이 부담스러웠던 바이두는 ‘BigSQL’의 D램을 퍼시스턴트 메모리로 바꿨다.

 

D램을 적용했을 때와 옵테인 퍼시스턴트 메모리를 적용했을 때의 벤치마크./바이두

바이두에 따르면 퍼시스턴트 메모리를 BigSQL 플랫폼에 적용하자 평균 쿼리 대기 시간이 이전 대비 20% 줄었다.

앱 다이렉트 모드에서 퍼시스턴트 메모리는 고속 저장장치로 쓰인다. 데이터를 읽을 때 소프트웨어가 D램를 거치지 않고 곧장 옵테인에서 데이터를 찾기 때문에 지연시간이 짧다. 특히 대용량 데이터를 계속해서 처리해야하는 고성능컴퓨팅(HPC) 업계가 주로 쓴다. 

교육 및 산업용 AI 알고리즘과 가속기를 개발하는 프리퍼드네트워크(PFN)는 HPC 클러스터로 알고리즘을 구축, 훈련시킨다. PFN은 컴퓨터 비전을 활용, 수백만 개의 이미지 파일로 구성된 학습용 데이터세트를 외부 스토리지에 보관하려했지만 기존 SSD로는 입출력(I/O) 처리량이 부족했다.

그래서 도입한 게 퍼시스턴트 메모리다. 딥러닝은 데이터 접근 패턴이 무작위라 메모리를 거쳐가면 효율성을 제대로 낼 수 없었다. PFN은 앱 다이렉트 모드에서 제어할 수 있는 맞춤형 코드를 개발하고 퍼시스턴트 메모리를 넣어 기존 대비 성능이 3.5배 개선된 시스템을 개발했다.

 

옵테인 SSD, 레거시 인프라를 벗어난 새로운 선택지

옵테인 SSD./인텔
옵테인 SSD./인텔

옵테인 SSD는 상대적으로 속도가 느린 낸드 기반 SSD에 대한 의존도를 낮춰준다. 지연시간이 SSD(80㎲)보다 짧은 10㎲ 미만이기 때문에 빠른 응답성과 대용량을 동시에 요구하는 하이퍼 컨버지드 인프라(HCI)나 대용량 데이터베이스(DB)에 적합하다.

인사관리(HR) 업체 ITX는 세계 단위의 업체나 조직들이 수천여명의 외국인을 고용, 관리할 수 있도록 지원한다. 고객부터 모바일 작업자, 계약, 현지 법률 등 신경써야할 게 한 둘이 아니며, 보안 및 유지 관리가 필요한 수많은 데이터를 갖고 있다. 그렇다보니 퍼블릭 클라우드를 채택할 순 없었다.

ITX는 차세대 전사적자원관리(ERP) 시스템을 구축하면서 성능, 고가용성, 데이터보안이라는 우선 순위를 정했다. 인터넷데이터센터(IDC) 업체들만큼 큰 데이터센터를 지을 필욘 없었지만, 모든 구성 요소를 다 갖추고 있어야했고 확장도 쉬워야했다. 전 세계에서 들어오는 쿼리도 빠르게 처리할 수 있어야 했다. 이들이 택한 게 옵테인 SSD 기반 HCI다.

HCI는 기존 데이터 센터의 모든 구성 요소, 즉 스토리지, 컴퓨팅, 네트워킹 및 관리를 통합한 소프트웨어 정의 통합 시스템이다. 표준 서버를 활용하기 때문에 값비싼 맞춤형 하드웨어가 필요 없고, 복잡한 인프라를 원활하게 관리할 수 있다. 스토리지 전문가가 상주하지 않아도 된다는 것도 장점 중 하나였다.

ITX는 기존 10개의 오라클 데이터베이스(DB)와 마이크로소프트의 협업 도구 ‘쉐어포인트’를 HCI에 연결했다.

파울로 프라타스(Paulo Pratas) ITX 인프라 책임자는 “우리는 성능이 20~30% 향상될 것이라고 생각했지만 그보다 훨씬 좋았다”라며 "테스트 쿼리는 2시간이 걸렸지만 지금은 거의 즉각적”이라고 설명했다.

저작권자 © KIPOST(키포스트) 무단전재 및 재배포 금지