[디지털데일리 김문기 기자] “우리는 지금 데이터센터를 짓고, 채워넣는 일을 반복하고 있다. 이렇게 빠르게 돌아가는 건 처음이다. AMD와의 협업과 관련해 MI300은 시작일 뿐이다. MI400도 준비 중이다.”
유 지운 송(Yee Jiun Song) 메타 엔지니어링 총괄 부사장은 12일(현지시간) AMD(대표 리사 수)가 미국 새너제이 컨벤션 센터에서 개최한 '어드밴싱 AI 2025(dvancing AI 2025, AAAI 2025)’에서 무대에 올라 메타의 AI 인프라 전환 현황을 소개했다.
송 부사장은 리사 수 CEO와 함께 AMD의 MI300, MI350을 넘어 내년 예정된 MI400 시리즈까지 이어질 협업을 바탕으로 AI 컴퓨팅의 변화를 실시간으로 마주하고 있다고 입을 모았다. 특히 메타는 MI300X를 대규모 배포한 최초의 글로벌 빅테크 파트너로서, AMD와의 긴밀한 공동 설계(Co-engineering) 과정을 강조했다.
그는 “LLaMA 3 및 4 모델의 추론 환경에 이미 광범위하게 배포돼 있다. 단순 언어모델을 넘어, 메타의 핵심 서비스인 추천 및 랭킹 워크로드까지 확장 배포 중”이라며, "MI350X은 FP4와 FP6 지원, 차세대 메모리, 더 높은 연산력까지 담고도 MI300과 동일한 폼팩터로 배포가 가능하다는 점이 특히 매력적이다. 기존 인프라에서 빠르게 채택할 수 있는 현실적인 선택지”라고 평가했다.
송 부사장은 AI 인프라가 단순히 ‘더 커지는 것’이 아니라, ‘더 복잡해지고 있는 것’이라고 해석했다.
그는 “불과 얼마 전까지만 해도, 업계의 관심은 프리트레이닝(pre-training)에 집중돼 있었다. 하지만 작년 말부터는 테스트타임 추론, 강화학습(RL), Mixture of Experts(MoE) 모델 등이 실서비스에 적용되며 새로운 컴퓨팅 수요가 폭발하고 있다"고 지적했다.
특히 MoE 모델에 대해 “집합 통신 집약적이며, 네트워크 인터커넥트 성능에 매우 민감하다”고 설명했다. 이는 단순 GPU 스펙 경쟁이 아니라, AI 가속기와 네트워크를 공동으로 설계할 필요성이 높아졌다는 의미다. 아울러 “AMD와 메타는 앞으로 엑셀러레이터와 네트워크 로드맵을 함께 설계해야 할 것”이라고 제언하기도 했다.
양사는 하드웨어뿐만 아니라 소프트웨어 측면에서도 양사는 긴밀한 협력관계를 이어가고 있다. 송 부사장은 “2021년부터 ROCm과 파이토치(PyTorch) 통합 작업을 긴밀히 진행해 왔다”며, “개발자가 별도 설정 없이 AMD GPU에서 파이토치를 바로 쓸 수 있도록 만든 것이 성과”라고 소개했다.
또한 메타는 파이톤(Python) 기반 컴파일러 프레임워크에도 기여하고 있다. 그는 “한 번 코드를 쓰면 다양한 가속기에서 돌아가도록 하는 것이 목표”라며, 이는 ROCm뿐만 아니라 업계 전반의 오픈소스 가속기 전략과 연결된다고 설명했다.
한편, 송 부사장은 “변화하는 워크로드에 유연하게 대응하는 파트너십이야말로 미래를 대비하는 핵심”이라며, “우리는 지금도 그렇지만, 앞으로 더 밀접하게 로드맵을 함께 그려야 한다”고 답했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
