인간처럼 대화 가능한 음성비서
기업 등 사용자풀 확장 '자신감'
AP연합뉴스 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
【파이낸셜뉴스 실리콘밸리=홍창기 특파원】 오픈AI가 최신 멀티모달(Multimodal·텍스트, 이미지, 오디오, 비디오) 거대언어모델(LLM)인 'GPT-4o'를 공개했다. 지난해 11월 GPT-4 터보 업그레이드 후 6개월 만이다. 오픈AI가 구글의 연례개발자회의(I/O) 개최 하루 전에 업그레이드된 GPT-4o를 내놓은 것은 AI 선구자 구글보다 오픈AI가 AI 기술에서 앞섰다는 선언을 한 것으로 풀이된다. 동시에 오픈AI는 GPT-4o를 통해 본격적인 수익창출에도 나섰다는 진단이다.
■실시간 통역하고 노래도 부른다
오픈AI는 13일(현지시간) 라이브 스트리밍을 통해 실시간 대화와 통역, 수학문제 풀이 등 GPT-4o의 주요 기능을 보여줬다. GPT-4o의 'o'는 '옴니'를 뜻한다.
구글이 지난해 12월 최신 AI형 모델 '제미나이'를 소개할 때 미리 만들어진 조작된 영상을 보여줬다는 논란을 의식한 듯 오픈AI는 이날 GPT-4o의 주요 기능을 라이브 스트리밍으로 선보였다.
오픈AI는 이미 사용자의 음성에 응답하는 챗GPT '음성 모드'라는 기능을 제공하고 있다. GPT-4o는 기존 음성 모드의 단점을 줄이고 장점을 추가했다. 텍스트와 이미지 및 오디오를 학습해 사용자의 목소리에 더 빠르고 정확하게 반응하는 것이다.
GPT-4o의 가장 큰 특징은 현재 출시된 타사의 음성비서와 달리 사용자와 실시간으로 상호 작용한다는 점이다. 사용자의 요청에 따라 목소리 톤을 높이고 대화 속도를 빠르게 할 수 있다. 또 로봇 목소리 등 다양한 목소리로 말하고 노래도 부른다.
오픈AI는 GPT-4o가 사용자의 목소리 톤이나 얼굴 표정을 통해 사람의 감정도 감지할 수도 있다고 주장했다. 오픈AI의 미라 무라티 최고기술책임자(CTO)는 "GPT-4o는 사람들과 실시간으로 상호작용하며 대화한다"고 강조했다.
■수학 과외선생님 같은 GPT-4o
오픈AI는 이날 종이에 적힌 수학문제를 'GPT-4o'가 인식해 사용자와 함께 풀어내는 장면도 실시간으로 시연했다. 또 다른 영상에서 GPT-4o는 수학문제 정답을 바로 말하지 않고 이용자와 계속 대화하면서 답을 이끌어냈다.
무라티는 "GPT-4o는 텍스트 이외에 이미지와 동영상도 잘 분석할 수 있다"고 말했다. 이와 관련, 오픈AI는 다른 영상을 통해 GPT-4o가 사용자가 입은 검은색 재킷을 설명하고 그의 방에 무엇이 있는지도 묘사하는 장면을 보여줬다.
샘 올트먼 오픈AI 최고경영자(CEO)는 GPT-4o를 영화에서 흔히 볼 수 있는 AI 도구에 비유했다.
올트먼 CEO는 "나와 다른 오픈AI 경영진이 음성비서와 사랑에 빠진 한 남자의 이야기를 다룬 영화 'Her'(허)에서 영감을 얻었다"고 말했다.
오픈AI는 몇 주 안에 GPT-4o를 월 20달러의 챗GPT-플러스를 결제하는 사용자에게 제공할 예정이다. GPT-4o는 기업에도 판매된다. 이와 관련, 무라티 CTO는 "GPT-4o는 현재 우리의 최고급 제품인 GPT-4 터보보다 두 배 빠르고 비용은 절반"이라고 설명했다.
월스트리트저널(WSJ)은 "오픈AI가 GPT-4o를 출시한 것은 오픈AI가 사용자 풀을 확장하고 AI를 통해 수익을 본격적으로 창출하기 위한 것"이라고 짚었다.
theveryfirst@fnnews.com
Copyright? 파이낸셜뉴스. 무단전재 및 재배포 금지.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.