컨텐츠 바로가기

05.24 (금)

오픈AI, 음성비서 ‘GPT-4o’ 발표 “실시간 통역에 노래까지 부른다”

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
텍스트·비전·오디오 통합


매일경제

GPT-4o

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈AI가 텍스트, 비전, 오디오를 통합한 멀티모달 모델 ‘GPT-4o’를 온라인을 통해 14일 발표했다.

GPT-4o는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원한다. 이번 발표에서는 15개 언어가 추가됐다. 미라 무라티 오픈AI 최고기술책임자는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 커버하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람들이 AI 기술을 활용할 수 있을 것”이라고 밝혔다.

또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빠르고 2배 더 저렴하다.

핵심은 음성 기능 강화다. 텍스트 비디오 이미지를 업로드하면 대화할 수 있고, 음성과 음성 대화도 가능하다. 종전에는 음성과 음성 연결이 불가능했다. 말을 하면, 챗GPT가 문장을 입력하는 정도였다. 하지만 이번에는 음성을 입력하면 챗GPT가 음성을 출력했다.

예를 들어, 오늘 날씨를 물으면 실시간으로 알려준다. 또 실시간 통역 역시 가능하다. 아울러 수학, 영화, 여행 등 다양한 분야에 적용할 수 있다. 소프트웨어 엔지니어는 코드를 입력해 이상 유무를 확인하고, 문제점을 음성으로 교정받을 수도 있다.

GPT-4o는 다양한 AI 엔진을 통합해 진정한 AI 에이전트가 될 것으로 보인다. 특히 AR 글래스나 디바이스 산업을 바꿀 수 있다. 메타가 AI 에이전트 접목을 시도하고 있는데, GPT-4o의 등장으로 경쟁이 심화될 것으로 예상된다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.