엔비디아 GPU 'B200' 4천장 규모 기반
학습기간 18개월서 1.5개월로 단축
팀네이버가 국내 최대 규모 인공지능(AI) 컴퓨팅 클러스터를 구축했다. 이를 통해 학습 효율이 12배 이상 향상돼 대규모 학습을 빠르게 반복할 수 있는 인프라를 확보, 독자 파운데이션 모델 고도화에 속도를 낸다는 계획이다.
팀네이버는 엔비디아의 차세대 그래픽처리장치(GPU) 'B200(블랙웰)' 4000장 규모를 기반으로 AI 컴퓨팅 클러스터 구축을 완료했다고 8일 밝혔다. 이번 인프라 구축으로 글로벌 수준의 컴퓨팅 파워를 확보하고 독자 파운데이션 모델 고도화, AI 기술을 서비스와 산업 전반에 유연하게 적용하기 위한 핵심 기반을 마련했다는 설명이다.
팀네이버는 대규모 GPU 자원을 하나로 연결해 성능을 끌어내는 '클러스터링' 분야에서 기술력을 보유하고 있다. 지난 2019년 엔비디아의 슈퍼컴퓨팅 인프라인 '슈퍼팟(SuperPod)'을 세계에서 가장 빠르게 상용화했고 초고성능 GPU 클러스터를 직접 설계·운영한 실증 경험을 축적했다.
학습기간 18개월서 1.5개월로 단축
팀네이버가 국내 최대 규모 인공지능(AI) 컴퓨팅 클러스터를 구축했다. 이를 통해 학습 효율이 12배 이상 향상돼 대규모 학습을 빠르게 반복할 수 있는 인프라를 확보, 독자 파운데이션 모델 고도화에 속도를 낸다는 계획이다.
팀네이버는 엔비디아의 차세대 그래픽처리장치(GPU) 'B200(블랙웰)' 4000장 규모를 기반으로 AI 컴퓨팅 클러스터 구축을 완료했다고 8일 밝혔다. 이번 인프라 구축으로 글로벌 수준의 컴퓨팅 파워를 확보하고 독자 파운데이션 모델 고도화, AI 기술을 서비스와 산업 전반에 유연하게 적용하기 위한 핵심 기반을 마련했다는 설명이다.
팀네이버는 대규모 GPU 자원을 하나로 연결해 성능을 끌어내는 '클러스터링' 분야에서 기술력을 보유하고 있다. 지난 2019년 엔비디아의 슈퍼컴퓨팅 인프라인 '슈퍼팟(SuperPod)'을 세계에서 가장 빠르게 상용화했고 초고성능 GPU 클러스터를 직접 설계·운영한 실증 경험을 축적했다.
이번에 구축한 'B200 4K 클러스터'에는 냉각·전력·네트워크 최적화 기술이 집약됐다. 대규모 병렬 연산과 고속 통신을 전제로 설계된 이번 클러스터는 글로벌 톱500 상위권 슈퍼컴퓨터들과 비교 가능한 수준의 컴퓨팅 규모를 갖춘 것으로 평가된다는 게 팀네이버측 설명이다.
이같은 인프라 성능은 AI 모델 개발 속도로 이어질 전망이다. 팀네이버 시뮬레이션 결과 720억개(72B) 파라미터 규모 모델 학습 시 기존 'A100' 기반 주력 인프라(2048장)로 약 18개월이 소요됐던 학습 기간은 새로 구축한 클러스터에선 약 한달 반 수준으로 단축할 수 있는 효과가 확인됐다. 다만 해당 수치는 내부 시뮬레이션인 만큼 실제 학습 과제와 설정에 따라 소요 기간은 달라질 수 있다.
학습 효율이 12배 이상 향상되면서 팀네이버는 더 많은 실험과 반복 학습으로 모델 완성도를 높이고 변화하는 기술 환경에 기민하게 대응할 수 있는 개발·운영 체계를 갖추게 됐다. AI 모델 개발 속도와 유연성 강화를 기대할 수 있다는 의미다.
팀네이버는 현재 진행하고 있는 독자 파운데이션 모델 고도화에도 속도를 낸다는 방침이다. 텍스트를 넘어 이미지와 비디오, 음성을 동시에 처리하는 옴니 모델 학습을 대규모로 확장해 성능을 글로벌 수준으로 끌어올리고 이를 다양한 서비스와 산업 현장에 단계적으로 적용한다는 구상이다.
최수연 네이버 대표는 "이번 AI 인프라 구축은 기술 투자를 넘어 국가 차원 AI 경쟁력 기반과 AI 자립·주권을 뒷받침하는 핵심 자산을 확보했다는데 의미가 있다"며 "팀네이버는 빠른 학습과 반복 실험이 가능한 인프라를 바탕으로 AI 기술을 서비스와 산업 현장에 유연하게 적용해 실질적 가치를 만들어 나갈 것"이라고 말했다.
ⓒ비즈니스워치(www.bizwatch.co.kr) - 무단전재 및 재배포금지
