[박찬 기자]
구글이 실시간으로 음악을 만들고 수정이 가능한 음악 생성 인공지능(AI) 모델을 선보였다. 프롬프트 입력과 거의 동시에 음악을 생성하고 사람과 함께 연주하며 스타일까지 바꿀 수 있는 모델은 처음이다.
구글은 22일(현지시간) 깃허브와 허깅페이스를 통해 실시간 음악 생성 모델 '마젠타 RT(Magenta RealTime)'를 공개했다.
마젠타 RT는 오픈 소스로 배포됐으며, 상업적 용도로 사용가능하다. 구글 코랩의 무료 TPU 환경에서도 실시간 추론이 가능할 정도로 최적화돼 있다.
구글이 실시간으로 음악을 만들고 수정이 가능한 음악 생성 인공지능(AI) 모델을 선보였다. 프롬프트 입력과 거의 동시에 음악을 생성하고 사람과 함께 연주하며 스타일까지 바꿀 수 있는 모델은 처음이다.
구글은 22일(현지시간) 깃허브와 허깅페이스를 통해 실시간 음악 생성 모델 '마젠타 RT(Magenta RealTime)'를 공개했다.
마젠타 RT는 오픈 소스로 배포됐으며, 상업적 용도로 사용가능하다. 구글 코랩의 무료 TPU 환경에서도 실시간 추론이 가능할 정도로 최적화돼 있다.
구글이 기존에 선보인 '뮤직LM'과 '뮤직FX' 등에서 사용한 기술을 바탕으로 한다. 여기에 스트리밍 합성과 실시간 사용자 제어에 특화된 것이 특징이다. 사용자는 텍스트나 오디오 프롬프트를 통해 장르, 악기 구성, 스타일 변화 등을 실시간으로 제어할 수 있다.
모델은 48kHz 스테레오 오디오를 위한 뉴럴 오디오 코덱을 사용해 분리된(discrete) 오디오 토큰을 생성하며, 이를 학습한 8억개 매개변수의 트랜스포머 언어 모델이 2초 단위로 오디오를 생성한다. 모델은 10초 분량의 오디오 히스토리를 참조해 자연스럽고 일관된 흐름을 유지한다.
따라서 2초 분량의 오디오를 약 1.25초 만에 생성할 수 있어, 실제 연주나 라이브 세션에서 즉각적인 반응이 가능하다는 설명이다. 연속 스트리밍 생성을 위해 오디오를 2초 단위로 분할해 생성하며, 중첩 윈도잉 기법을 활용해 끊김 없는 재생을 구현했다.
여기에 XLA 컴파일, 캐시 최적화, 하드웨어 스케줄링 등 다양한 기술이 적용돼 지연 시간을 최소화했다.
이를 통해 다양한 분야에 활용될 수 있다고 강조했다.
DJ나 연주자가 라이브 공연에서 실시간으로 음악 스타일을 바꿀 수 있다. 창작 도구로 사용하면 다양한 음악 스타일을 빠르게 실험하고 비교해 볼 수 있어 효율성과 표현력을 높일 수 있다. 교육 현장에서는 학생들이 화성, 구조, 장르 등 음악의 다양한 요소를 직관적으로 이해하고 체험할 수 있는 학습 도구로 활용될 수 있다.
이 외에도 인터랙티브 설치 예술에 적용하면 관객 움직임이나 주변 환경에 반응하는 생성 음악 공간을 구현할 수 있어 몰입감 높은 체험형 콘텐츠 개발이 가능하다고 전했다.
구글은 앞으로 온디바이스 추론 지원과 사용자 맞춤형 미세조정 기능도 추가할 계획이라고 밝혔다. 이를 통해 창작자 개개인의 음악 스타일에 맞춘 커스터마이징도 가능해질 전망이다.
마젠타 RT는 구글 딥마인드의 뮤직FX(DJ 모드), '리리아(Lyria)'의 리얼타임 API 등과도 상호보완적으로 작동할 수 있다.
또 '뮤직젠(MusicGen)'이나 '주크박스(Jukebox)' '리퓨전(Riffusion)' 등 기존 모델들과 비교해도 낮은 지연 시간과 실시간 인터랙션 측면에서 한발 앞서 있다는 평이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
