[박찬 기자]
메타가 업로드한 문서를 바탕으로 팟캐스트를 생성하는 오픈 소스 애플리케이션을 내놓았다. 이는 구글의 인기 인공지능(AI) 앱 '노트북LM'과 매우 유사하다.
메타는 27일(현지시간) PDF 문서를 팟캐스트로 만드는 앱 '노트북라마(NotebookLlama)'를 오픈 소스로 출시했다고 보도했다.
노트북라마는 노트북LM처럼 PDF 문서를 메타의 '라마-3.2'로 요약, 가상의 AI 호스트 2명을 등장시켜 대화식으로 내용을 설명해 주는 팟캐스트로 변환한다.
(사진=셔터스톡) |
메타가 업로드한 문서를 바탕으로 팟캐스트를 생성하는 오픈 소스 애플리케이션을 내놓았다. 이는 구글의 인기 인공지능(AI) 앱 '노트북LM'과 매우 유사하다.
메타는 27일(현지시간) PDF 문서를 팟캐스트로 만드는 앱 '노트북라마(NotebookLlama)'를 오픈 소스로 출시했다고 보도했다.
노트북라마는 노트북LM처럼 PDF 문서를 메타의 '라마-3.2'로 요약, 가상의 AI 호스트 2명을 등장시켜 대화식으로 내용을 설명해 주는 팟캐스트로 변환한다.
먼저 뉴스 기사나 블로그 게시물의 PDF 파일을 '라마-3.2-1B-인스트럭트' 모델을 사용해 텍스트 파일로 저장하고, '라마-3.1-70B-인스트럭트' 모델로 텍스트에서 팟캐스트 대본을 작성한다.
최종적으로 '라마-3.1-8B-인스트럭트' 모델에서 대본을 드라마처럼 다듬은 다음 '팔러-tts(parler-tts)' 텍스트-음성 변환 모델을 통해 팟캐스트를 생성한다.
노트북 라마 (사진=메타) |
하지만 성능은 구글에 못 미치는 것으로 알려졌다. 결과물은 음성이 로봇처럼 들리고 서로 겹쳐서 말하는 현상이 나타났다.
연구진은 강력한 모델을 사용하면 품질이 개선될 수 있다고 밝혔다. "텍스트-음성 변환 모델은 얼마나 자연스럽게 들리는지에 대한 한계가 있다"라고 전했다.
이어 "두 에이전트, 즉 두개의 모델로 팟캐스트 개요를 각각 작성하면 성능이 좋아질 수 있다. 현재는 단일 모델을 사용해 팟캐스트 요약본을 작성한다"라고 설명했다.
한편, 구글의 노트북LM이 인기를 끈다는 소식이 전해지며 다른 기업들도 메타처럼 비슷한 앱을 내놓을 것으로 예측되고 있다.
이미 이번달 초에는 싱가포르 정부기술 기관 소속 가브리엘 추아 데이터 과학자가 구글의 노트북LM과 유사한 '오픈 노트북LM(Open NotebookLM)'을 오픈 소스로 공개한 바 있다. 이 앱은 메타의 라마 3.1 405B 모델과 음성 합성을 위한 멜로TTS(MeloTTS)를 사용하여 구축됐으며, PDF 문서를 가상의 팟캐스트로 변환한다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
