오픈 AI, GPT-4o ‘AI 음성 기능’ 출시 미뤘다…이유는?

박진수 에디터 2024.07.04 조회수

134

오픈 AI, GPT-4o ‘AI 음성 기능’ 출시 미뤘다…이유는?

오픈 AI(Open AI)는 지난 5월 새로운 생성 AI 모델 ‘GPT-4o(GPT-포오)’를 공개했다. GPT-4o는 멀티모달(다중모드) 모델이다. 텍스트뿐만 아니라 음성, 이미지 인식 기능이 통합돼 실시간 상호작용이 가능하다.

오픈AI의 미라 무라티 최고기술책임자(CTO)는 라이브 행사를 통해 각종 기능을 시연했다. 이용자 질문에 곧바로 답하며, 응답 생성 중 끼어들거나 머뭇거려도 자연스레 대화를 이어가는 모습을 보였다.

응답 시간도 무척 빠르다. GPT-4o는 최소 232밀리초(ms·1000분의 1초), 평균 320밀리초로 답한다. 이는 인간 응답 시간과 비슷한 수준이다. 이전 모델인 GPT-3.5는 평균 2.8초, GPT-4는 평균 5.4초가 걸렸다.

GPT-4o는 현재 유료 사용자 대상으로 제공 중이다. 하지만, 음성 기능은 좀 더 기다려야 할 듯싶다. 6월 25일(현지시간) 오픈 AI는 엑스(X) 계정을 통해 음성 기능 출시를 한 달 연기한다고 발표했다.

블룸버그통신(Bloomberg)은 가을쯤 모든 유료 이용자에게 음성 기능을 제공하는 게 오픈 AI 목표라고 전했다. 다음 달에는 일부 유료 이용자, 9월에는 모든 유료 이용자에게 개방하겠다는 이야기다.

오픈 AI는 ‘안전 테스트’에 더 많은 시간이 필요하다고 밝혔다. 특정 콘텐츠를 감지해 응답을 생성하지 않는 기능을 개선하고 있다고 한다. 높은 안전성과 신뢰성 기준을 충족해야만 출시할 수 있다는 설명이다.

일각에서는 미국 유명 배우 ‘스칼렛 요한슨(Scarlett Johansson)’ 갈등도 영향을 미쳤으리라는 분석이 나온다. 스칼렛 요한슨은 지난 5월 오픈 AI에 문제를 제기했다. GPT-4o 목소리 스카이(Sky)가 자신과 유사하다는 이유에서다.

오픈 AI는 일부러 같은 목소리로 제작한 건 아니라는 입장이다. 성우와 배우 400명 중 최종 5명을 추려 제작했다고 밝혔다. 그러나 오픈 AI 최고 경영자(CEO) 샘 올트먼(Sam Altman)이 GPT-4o 공개 직후 엑스 계정에 ‘her(영화 ‘그녀’로 추측)’를 언급해 의심의 눈초리는 커진 상태다.

스칼렛 요한슨은 목소리 사용을 중단해 달라 요청했다. 구체적인 개발 과정도 공개해달라 요구한 건 오픈 AI 측에서 거절했다고 전해진다. 대신 현재는 이를 대체할 목소리를 개발 중이라고 알려졌다.

일부 유료 이용자는 불만을 토로했다. 미국 최대 커뮤니티 레딧(Reddit)에는 챗GPT 플러스 구독을 취소하겠다는 게시물도 올라왔다.

음성 기능을 먼저 사용하고 싶어 GPT-4o가 출시된 5월부터 유료 구독을 한 이들이 많다. 실제로 챗GPT 모바일 앱은 지난달 앱스토어와 구글 플레이 스토어에서 총 420만 달러(약 57억 원) 수익을 거두기도 했다. 플러스 가입자가 늘어났기 때문이다.

당장 7월에 사용할 수 있을지도 미지수다. 오픈 AI는 일부 유료 이용자에게만 테스트를 진행할 계획이다. 여기에 포함되지 못하면 구독료만 지불하는 사태가 발생할 수 있다.

오픈 AI는 ‘챗GPT가 이용자 감정이나 비언어적 단서까지 이해할 수 있어 자연스러운 AI 대화가 가능하다’며, ‘안전하게 제공하는 게 우리의 사명’이라고 밝혔다.

실제로 챗GPT를 포함한 여러 생성 AI 챗봇은 허위 정보를 제공하는 경우가 많다. 인종차별이나 성차별을 일삼기도 한다. 최근 구글도 생성 AI 챗봇 제미나이(Gemini)가 독일 나치 군인을 동양인으로 표현하는 등 역사적 맥락을 고려하지 않아 서비스를 일시 중단한 바 있다.

한편, 오픈 AI는 소라(Sora) 출시도 미룬 상태다. 소라는 텍스트로 입력한 내용을 최대 1분짜리 고화질 영상으로 만들어 주는 생성 AI 모델이다. 프롬프트만 입력하면 세상에 없던 새로운 영상을 만들어 준다. 추상적인 단어만 몇 가지 넣어도 그럴듯한 영상을 얻을 수 있다. 사물 동작부터 그림자, 조명, 배경 등을 세밀하게 표현한다.

소라는 지난 2월 처음 공개됐다. 하지만 오픈 AI는 악용될 가능성이 있다며 프리뷰(미리보기) 버전만 공개했다. 월스트리트저널(WSJ)을 포함한 여러 외신에서는 올 연말 출시가 유력하다고 전했다. 출시가 이보다 더 미뤄질 경우, 음성 기능처럼 비판을 피하기는 어려워 보인다.