컨텐츠 바로가기

11.27 (수)

이슈 인공지능 시대가 열린다

메타는 자체 대규모 AI 인프라를 어떻게 유지·보수할까?

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[AI리포터]
디지털투데이

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털투데이 AI리포터] 메타가 대규모 인공지능(AI) 인프라를 유지·보수하는 방법에 대해 17일(현지시간) 온라인 매체 기가진이 살펴봤다.

메타는 AI 개발 및 활용을 적극적으로 추진하며, 이를 위한 하드웨어 유지·보수에도 심혈을 기울인다. 메타는 세계 최대 규모의 AI 트레이닝 인프라를 구축하고 있는데 오는 2025년에는 사용하는 GPU 수가 60만개에 달할 것으로 예상된다. 이를 위해 메타는 빠른 처리 속도, 불량 호스트의 최소화, 중단 없는 작업 진행, 복잡한 소프트웨어 스택 관리, 호스트의 일관성 등을 고려해야 한다.

메타는 내부에서 '유지·보수 열차'(Maintenance train)라는 방식을 적용하고 있다. 이는 클러스터 내 소수의 호스트가 차례로 운영에서 제외되고, 그 시점에서 가능한 모든 업데이트를 적용한 후 다시 클러스터로 복귀하는 작업을 반복하는 방식이다. 이를 통해 가용성을 유지하는 동시에 항상 전체 업데이트가 이뤄진다.

메타는 인프라 규모가 큰 만큼 중단을 수반하는 모든 롤아웃은 단계적으로 이루어지도록 조정한다. 이를 위해 CUDA 라이브러리 및 AI 작업 자체는 항상 일관성을 유지하면서 OS, 펌웨어, 네트워크 등 하위 컴포넌트들은 단계적으로 진행할 수 있도록 하고 있다.

또 메타는 AI 성능 최적화를 위해 동시에 유지·보수하는 호스트 수를 조정한다. 메타는 AI 팀과 함께 최적의 수를 찾기 위해 노력하고 있다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.