컨텐츠 바로가기

06.27 (목)

“모두를 위한 AI 슈퍼컴” 애저 클라우드 AI 데이터센터의 내부 살펴보기

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
빌드 컨퍼런스에서 마이크로소프트는 추론 가속기, 고대역폭 연결, 효율성과 안정성을 위한 각종 툴을 통해 애저 클라우드가 대규모 AI 워크로드를 어떻게 지원하는지 설명했다.

마이크로소프트 애저 클라우드의 CTO 마크 러시노비치의 빌드 컨퍼런스 발표는 항상 흥미롭다. 클라우드의 기반이 되는 하드웨어의 과거와 현재, 미래를 살펴볼 수 있는데, 올해 발표에서는 AI 플랫폼으로서의 애저 데이터센터에 중점을 뒀다.
ITWorld

ⓒ Getty Images Bank

<이미지를 클릭하시면 크게 보실 수 있습니다>



지난 몇 년 동안 애저 클라우드의 하드웨어가 점점 더 복잡해진 것은 분명하다. 처음에는 단일 표준 서버 디자인을 사용하는 유틸리티 컴퓨팅의 대표적인 예였다. 이제는 모든 종류의 워크로드를 지원할 수 있는 다양한 서버가 모여 있다. GPU가 추가됐고, 곧 이어 AI 가속기가 추가됐다.

2023년에 도입된 마지막 혁신은 애저 클라우드의 인프라가 호스팅하는 워크로드와 함께 얼마나 빠르게 발전했는지 보여준다. 러시노비치의 첫 번째 슬라이드는 최신 AI 모델이 얼마나 빠르게 성장하고 있는지 소개했는데, 2018년 GPT의 매개 변수는 1억 1,000만 개에서 오늘날의 GPT-4o에서는 1조 개가 넘는다. 그리고 이런 모델을 훈련하기 위한 대규모 분산형 슈퍼컴퓨터와 이를 효율적이고 안정적으로 만들기 위한 하드웨어 및 소프트웨어가 개발됐다.

AI 슈퍼컴퓨터 구축

이런 AI 플랫폼을 실행하는 데 필요한 시스템의 규모는 엄청나다. 마이크로소프트의 첫 번째 대규모 AI 학습용 슈퍼컴퓨터는 2020년 5월에 세부 정보가 공개됐다. 이 슈퍼컴퓨터는 1만 개의 엔비디아 V100 GPU를 탑재했으며, 전 세계 슈퍼컴퓨터 순위에서 5위를 기록했다. 불과 3년 후인 2023년 11월, 최신 버전에는 1만 4,400개의 H100 GPU가 탑재되어 3위를 차지했다.

2024년 6월, 마이크로소프트는 전 세계 데이터센터에 30대 이상의 유사한 슈퍼컴퓨터를 보유하고 있다. 러시노비치는 모델 학습에 640만 GPU 시간이 걸리는 오픈소스 Llama-3-70B 모델을 소개했다. 하나의 GPU에서는 730년이 걸리지만, 마이크로소프트의 AI 슈퍼컴퓨터에서는 약 27일이면 학습을 마칠 수 있다.

학습은 문제의 일부일 뿐이다. 일단 모델이 구축되면 이를 사용해야 하는데, 추론에는 슈퍼컴퓨터 수준의 연산 능력이 필요하지 않지만 여전히 많은 컴퓨팅 성능이 필요하다. 러시노비치의 설명에 따르면, 단일 부동 소수점 매개변수에는 2바이트의 메모리가 필요하고, 10억 개 매개변수 모델에는 2GB의 RAM이 필요하며, 175억 개 매개변수 모델에는 350GB가 필요하다. 이는 캐시와 같은 필요한 오버헤드를 추가하기 전의 수치로, 이미 과중한 메모리 요구 사항에 40% 이상 추가될 수 있다.

이 모든 것은 애저 클라우드가 많은 데이터를 최대한 빠르게 처리하기 위해 매우 구체적인 특성을 가진 많은 GPU가 필요하다는 것을 의미한다. GPT-4와 같은 모델에는 상당한 양의 고대역폭 메모리가 필요하다. 컴퓨팅과 메모리는 모두 상당한 양의 전력이 필요하다. 엔비디아 H100 GPU는 700와트가 필요하며, 항상 수천 개가 작동하는 애저 데이터센터는 많은 열을 배출해야 한다.

트레이닝을 넘어 추론을 위한 설계

마이크로소프트는 마이아(Maia) 하드웨어 형태의 자체 추론 가속기를 개발하며 새로운 직접 액체 냉각 시스템 영역을 개척하고 있다. 이 냉각 시스템은 폐쇄 루프 냉각 시스템으로 마이아 추론 가속기를 감싸고 있는데, 이를 위해 자체 냉각 장비의 열 교환기를 포함하는 보조 캐비닛이 있는 완전히 새로운 랙 설계가 필요하다.

학습용 데이터센터를 설계하면서 마이크로소프트는 추론을 위한 프로비저닝 방법을 알게 됐다. 학습 워크로드는 최대 100%까지 빠르게 상승하고 실행 기간 동안 유지된다. 추론 랙에서 동일한 전력 모니터링을 사용하면 추론 작업의 여러 지점에서 전력 소비가 어떻게 달라지는지 확인할 수 있다.

애저 클라우드의 프로젝트 POLCA는 이 정보를 사용해 효율성을 높이는 것을 목표로 한다. 최대 전력 소비에 대응하는 프로비저닝을 통해 여러 추론 작업을 동시에 실행할 수 있으므로 약 20%의 오버헤드를 줄일 수 있다. 이를 통해 마이크로소프트는 서버 주파수와 전력을 모두 조절해 데이터센터에 30% 더 많은 서버를 배치할 수 있다. 그 결과 AI 데이터센터의 컴퓨팅, 전력, 열 수요에 대해 보다 효율적이고 지속 가능한 접근 방식이 가능해졌다.

학습 모델을 위한 데이터 관리 역시 여러 문제를 가져온다. 우선은 데이터의 양이 많으며, 이런 데이터를 애저 슈퍼컴퓨터의 노드에 분산해야 한다. 마이크로소프트는 데이터를 관리하기 위해 스토리지 가속기라고 부르는 기능을 개발했다. 이 기능은 현재 작업을 방해하지 않으면서 가용 대역폭을 이용해 필요한 데이터를 로컬에서 사용할 수 있는지 또는 클라우드에서 가져와야 하는지를 결정하는 캐시를 통해 클러스터에 데이터를 분산하고 있다. 병렬 읽기를 사용해 데이터를 로드하면 대량의 학습 데이터를 기존 방식보다 거의 두 배 빠르게 로드할 수 있다.

AI에 필요한 고대역폭 네트워크

컴퓨팅과 스토리지도 중요하지만, 특히 수백 개의 GPU에서 작동하는 대규모 데이터 병렬 워크로드에서는 네트워킹이 여전히 중요하다. 마이크로소프트는 서버에서 1.2TBps의 내부 연결을 사용해 8개의 GPU를 연결하고 동시에 인피니밴드 기술을 이용해 개별 서버의 개별 GPU 간에 400Gbps를 연결한다.

마이크로소프트는 개방형 AI 학습용 슈퍼컴퓨터와 고객 서비스를 위해 인피니밴드에 많은 투자를 해왔다. 흥미롭게도 러시노비치는 "실제로 우리가 오픈AI를 위해 구축하는 슈퍼컴퓨터와 공개적으로 제공하는 슈퍼컴퓨터의 유일한 차이점은 인피니밴드 도메인의 규모이다. 오픈AI의 경우 인피니밴드 도메인은 수만 대의 서버에 해당하는 전체 슈퍼컴퓨터를 포괄한다"라고 설명했다. 동일한 학습 수요가 없는 다른 고객의 경우, 도메인은 더 작지만 여전히 슈퍼컴퓨터 규모인 "1,000~2,000대의 서버와 1~2만 개의 GPU를 연결하는" 규모이다.

이런 네트워킹 인프라에는 단순한 기술도 필요하다. 예를 들어, 대량의 케이블을 효율적으로 끌어당기는 3D 프린팅 썰매도 필요한데, 이 썰매는 서버 랙 위의 케이블 선반에 배치되어 케이블을 끌어당기는 데 이용한다. 6개월마다 30대의 슈퍼컴퓨터를 구축할 때 필수적인 케이블 연결 시간을 크게 단축할 수 있는 단순한 기술이다.

신뢰할 수 있는 AI를 만드는 프로젝트 포지와 원풀

하드웨어는 애저 슈퍼컴퓨터 이야기의 일부일 뿐이다. 소프트웨어 스택은 기본 플랫폼 오케스트레이션 및 지원 툴을 제공한다. 이것이 바로 프로젝트 포지(Project Forge)가 등장하는 이유이다. 분산 인프라 전반에서 작업을 예약하는 동시에 필수 리소스 관리를 제공하고 다양한 유형의 AI 컴퓨팅에 부하를 분산하는 방법으로, 쿠버네티스와 같은 것으로 생각할 수 있다.

프로젝트 포지의 스케줄러는 애저에서 사용할 수 있는 모든 AI 가속기를 가상 GPU 용량의 단일 풀로 취급하며, 마이크로소프트는 이를 원풀(OnePool)이라고 부른다. 각 워크로드에는 이런 가상 GPU에 대한 액세스를 제어하는 우선순위가 있다. 우선순위가 높은 워크로드는 우선순위가 낮은 워크로드를 다른 클래스의 가속기 또는 다른 지역으로 밀어낼 수 있다. 목표는 전체 애저 AI 플랫폼에서 일관된 수준의 사용률을 제공해 마이크로소프트가 전력 및 네트워킹 예산을 더 잘 계획하고 관리할 수 있도록 하는 것이다.

프로젝트 포지는 쿠버네티스와 마찬가지로 장애를 감지하고 작업을 다시 시작하고 호스트 플랫폼을 복구해 보다 탄력적인 서비스를 실행할 수 있도록 설계됐다. 이런 프로세스를 자동화함으로써 애저는 비용이 많이 드는 복잡한 작업을 다시 시작하지 않고, 대신 개별적으로 실행하고 필요에 따라 입출력을 조율할 수 있는 배치 집합으로 처리할 수 있다.

일관성 및 보안 : AI 애플리케이션을 위한 준비 완료

AI 모델이 구축되면 이를 활용해야 한다. 다시 말하지만, 애저는 다양한 유형의 모델과 해당 모델 내의 다양한 프롬프트에 걸쳐 사용률의 균형을 맞출 방법이 필요하다. 오케스트레이션(또는 게으른 오케스트레이션)이 없으면 하나의 프롬프트가 다른 작업을 차단하는 상황이 발생하기 쉽다. 애저의 프로젝트 플라이휠(Project Flywheel)은 성능을 보장하는 역할을 하는데, 가상 GPU에서 여러 프롬프트의 작업을 인터리빙해 호스트 물리 GPU에서 일관된 작업을 수행하면서도 일정한 처리량을 제공할 수 있다.

또 다른 기반 최적화로는 사용자 지정 모델을 학습할 때 적용하는 기밀 컴퓨팅 기능이 있는데, 신뢰할 수 있는 실행 환경에서 코드를 실행하고 데이터를 호스트할 수 있다. 이제 애저는 CPU와 GPU가 신뢰할 수 있는 환경 간에 암호화된 메시지를 사용해 GPU를 포함한 완전한 기밀 VM을 제공하며, 검색 증강 생성에 사용되는 개인 데이터를 교육하거나 보호하는 데 사용할 수 있다.

러시노비치의 발표를 보면 마이크로소프트가 AI 인프라의 효율성과 반응성을 높이고 학습 및 추론을 위해 막대한 투자를 하고 있다는 것을 알 수 있다. 애저 인프라 및 플랫폼팀은 대규모 모델 학습을 지원할 수 있는 하드웨어 및 소프트웨어를 구축하는 동시에 애플리케이션에서 AI를 사용할 수 있는 안전하고 안정적인 환경을 제공하기 위해 많은 노력을 기울여 왔다.

마이크로소프트는 애저에서 오픈AI를 실행하면서 많은 경험을 쌓았다. 모든 기업이 톱500 슈퍼컴퓨터가 필요하지는 않지만, 마이크로소프트의 이런 경험이 기업 사용자에게 동일한 툴과 기술을 제공하는 기반이 되고 있다.
editor@itworld.co.kr

Simon Bisson editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.