컨텐츠로 건너뛰기
검색
디지털데일리 언론사 이미지

“GPU 물량 공세는 이제 그만”…네이버클라우드, ‘효율’로 AI 인프라 재정의

디지털데일리 세종=이안나 기자
원문보기

“GPU 물량 공세는 이제 그만”…네이버클라우드, ‘효율’로 AI 인프라 재정의

속보
'올해 마지막' 뉴욕증시, 3대 지수 보합권 출발

[세종=디지털데일리 이안나기자] AI 인프라 경쟁의 초점이 바뀌고 있다. 그래픽처리장치(GPU)를 얼마나 많이 확보하느냐보다 확보한 자원을 얼마나 안정적이고 효율적으로 운용하느냐가 새로운 경쟁력 기준이 되고 있다.

네이버클라우드는 이러한 변화에 맞춰 내부에서 다져온 인프라 운영 역량을 기반으로 GPU 서비스를 한 단계 확장한다. 그간 네이버클라우드는 정부와 민간 프로젝트를 통해 GPUaaS(GPU as a Service) 사업을 운영해왔다. 이번엔 그 방향성을 재정비하고 기업 전반으로 확대하겠다는 전략을 내놨다.

지난 26일 세종시 집현동 네이버클라우드 데이터센터 ‘각 세종’에서 열린 기자간담회에서 이상준 네이버클라우드 운영총괄본부장(CIO)은 “AI 인프라의 경쟁력은 GPU를 얼마나 많이 확보하느냐보다 확보한 자원을 얼마나 안정적이고 효율적으로 운영하느냐에 달려 있다”고 말했다.

◆ AI 인프라의 ‘운영 지능화’…GPUaaS로 시장 확장=네이버클라우드가 추진하는 GPUaaS는 단순 임대가 아니라 GPU 자원을 용량 단위로 나눠 고객 규모와 목적에 맞게 제공하는 모델이다. GPU 확보 경쟁이 대기업 중심 자본력 싸움으로 흐르는 가운데 네이버클라우드는 이를 운영 효율 기반 시장 경쟁으로 전환하겠다는 목표를 세웠다.

네이버클라우드는 자체 GPU 클러스터 운영 경험을 통해 얻은 자원 스케줄링 기술을 바탕으로 스타트업부터 대기업까지 다양한 수요층을 흡수할 수 있는 구조를 갖췄다고 설명했다. 중소·중견기업(SMB)에게는 GPU 비용 부담을 줄이면서도 필요한 시점에 연산 자원을 유연하게 확보할 수 있는 창구가 된다.

GPUaaS는 이미 여러 산업 현장에서 운영 중이다. 네이버클라우드는 현대자동차, 포티투닷 등 대기업에 GPU 인프라를 공급하고 있다. 삼성전자와 한국수력원자력, 한국은행 등 주요 기관의 인공지능(AI) 모델 학습 환경에도 자사 서비스를 적용하고 있다. 최근에는 정부 주도 대규모 AI 컴퓨팅 사업에도 참여하며 공공 영역까지 GPUaaS 범위를 넓히고 있다.


이상준 CIO는 “GPU·전력·냉각·네트워크를 하나의 시스템처럼 통합해 제어하는 구조가 네이버클라우드 강점”이라며 기업 규모와 상관없이 빠르게 늘어나는 GPU 활용 수요에 대응하기 위해 GPUaaS 효율적 운영이 중요하다고 강조했다.

◆ 냉각 기술로 효율 경쟁력 확보…공랭·수냉 투트랙 구조=GPU를 효율적으로 운용하기 위해선 냉각 기술이 필수다. 최근 GPU 전력 밀도는 세대가 바뀔 때마다 가파르게 높아지고 있다. 예컨대 과거 A100 GPU는 랙당 6kW 미만이었지만, H100은 8kW, B200·B300은 13~15kW까지 늘어났다.

네이버클라우드는 이러한 전력·발열 환경 변화에 대응해 세종 데이터센터 2·3차 서버실에 직접수냉(DLC) 설계를 반영하고, 기존 공랭식 시스템과 병행하는 투트랙 구조로 효율을 높이고 있다.


노상민 네이버클라우드 데이터센터 통합센터장은 “GPU 서버 밀도가 높아질수록 열 제어가 관건”이라며 “DLC는 내년 4월까지 개념검증(PoC)을 마치고 상용화 기준을 마련할 계획”이라고 밝혔다. 그는 “액침냉각은 적용까지 시간이 더 걸리지만, 전력 밀도가 100kW 이상으로 향하는 추세를 고려해 자체 기준을 정립 중”이라고 덧붙였다.




AI 데이터센터 ‘각 세종’은 공랭과 수냉을 병행한 하이브리드 구조에 액티브-액티브 설계를 적용했다. GPU 고밀도 서버를 무중단에 가깝게 운영할 수 있도록, 전력·냉각·네트워크·AI 플랫폼을 하나의 제어 체계에서 통합 관리하는 구조다. 전력 공급과 냉각 라인을 이중화해 장애 발생 시에도 즉시 전환이 가능하며, AI 워크로드 변화에 따라 전력 배분과 냉각 효율을 실시간으로 조정한다.

노 센터장은 “AI 인프라는 GPU만 많이 갖춘다고 되는 게 아니라, 전력과 냉각, 네트워크까지 함께 제어하는 운영 구조가 핵심”이라며 “각 세종은 GPU 서버를 무정지에 가깝게 운용하기 위해 전력 계통과 냉각 시스템을 완전 분리 설계했다”고 설명했다


네이버클라우드는 이러한 ‘풀스택 자립형’ 모델을 통해 데이터센터 설계부터 운영, AI 플랫폼까지 모든 계층을 직접 통합 관리한다. 글로벌 사업자들이 표준화된 장비 조합과 외부 파트너에 의존하는 것과 달리, 네이버클라우드는 내부 설계와 소프트웨어 스택을 조합해 환경을 최적화한다. 이 같은 내재화 역량은 GPU 전력 효율과 냉각 성능을 극대화할 뿐 아니라, 향후 AI 컴퓨팅 자원 확대 시에도 자체 기준으로 확장할 수 있는 기반이 된다

◆ 국가 AI 인프라, 민관 협력 실험장으로=네이버클라우드는 최근 삼성SDS와 함께 ‘국가 AI 컴퓨팅센터’ 프로젝트에 동등 지분으로 참여했다. 단순한 하드웨어 공급이 아니라 민간이 축적한 GPU 운영 경험을 국가 인프라 운영 모델에 이식하는 것이 목적이다.

이 CIO는 “GPUaaS는 기업 고객만의 문제가 아니라 국가 단위에서도 자원 활용 효율이 핵심 과제”라며 “SDS와 협력은 국가 인프라에서도 민간이 얼마나 효율적으로 자원을 운영할 수 있는지 보여주는 실험이 될 것”이라고 말했다. 그는 또 “공공은 안정성과 투명성을, 민간은 성능과 비용 효율성을 우선시한다”며 “이번 협력은 두 방향을 맞물리게 하는 시도”라고 덧붙였다.

이 협력은 국가 차원 AI 인프라 운영 패러다임이 ‘보유 중심’에서 ‘활용 중심’으로 바뀌고 있음을 보여주는 사례로 풀이된다. GPUaaS가 기업 시장을 넘어 공공 영역으로 확장되며 민간 기술이 국가 인프라 효율성을 검증하는 실험 무대로 옮겨가고 있다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -