OpenAI가 기다려온 "ChatGPT 고급 음성 모드"를 출시합니다. 이 인간적인 대화형 음성 인터페이스는 초기 테스트 그룹과 대기자 명단을 넘어 더 많은 사용자에게 공개됩니다. 이 기능은 OpenAI의 ChatGPT Plus 및 Team 플랜의 모든 유료 구독자에게 제공되며, 향후 며칠 내에 미국에서 서서히 접근 가능해질 예정입니다. Edu 및 Enterprise 플랜 구독자들은 다음 주에 사용할 수 있을 것으로 기대하고 있습니다.
음성 인터페이스 외에도 OpenAI는 사용자 맞춤형 상호작용을 위한 "사용자 지침" 및 "기억" 기능을 도입합니다. 이는 ChatGPT의 텍스트 옵션에서 이전에 출시된 기능을 반영합니다. 사용자들은 Arbor, Maple, Sol, Spruce, Vale의 다섯 가지 새로운 음성 스타일과 Breeze, Juniper, Cove, Ember의 기존 음성을 함께 즐길 수 있습니다.
이 개선 사항은 ChatGPT 사용자가 텍스트 입력 대신 음성을 통해 챗봇과 상호작용할 수 있게 합니다. 앱에서 고급 음성 어시스턴트 모드에 진입할 때 팝업 알림이 확인됩니다. OpenAI는 알파 버전 이후로 인기 있는 외국어의 억양을 개선하고 대화의 유창성을 높이는 데 많은 시간을 투자했습니다. 사용자들은 애니메이션 블루 스피어가 있는 새롭게 디자인된 고급 음성 모드를 경험하게 됩니다.
이 업데이트는 GPT-4o 모델에 독점적이며, 최신 o1 미리보기 모델은 포함되지 않습니다. 사용자 지침 및 기억 기능은 음성 채팅 시 사용자 상호작용을 더욱 개인화할 것입니다.
애플의 Siri와 아마존의 Alexa와 같은 AI 음성 비서가 각광받는 가운데, 개발자들은 보다 인간적인 대화 경험을 창출하기 위해 노력하고 있습니다. ChatGPT는 읽어주기(Read-Aloud) 기능으로 음성 기능을 도입했으나, 고급 음성 모드는 보다 몰입감 있고 진정한 상호작용을 제공하는 것을 목표로 합니다.
경쟁사들 중 Hume AI는 목소리 패턴을 통해 감정을 감지하는 공감 음성 인터페이스를 출시했으며, Kyutai는 오픈 소스 AI 음성 비서 Moshi를 공개했습니다. 구글은 Gemini 챗봇에 새로운 음성을 추가했으며, 메타는 자사의 AI 플랫폼을 위해 인기 배우의 목소리를 모방하는 음성을 개발 중입니다. OpenAI는 AI 음성 기술을 경쟁사보다 더욱 접근 가능하게 만들고 있다고 주장합니다.
하지만 AI 음성의 통합은 논란의 여지가 있었습니다. ChatGPT의 목소리 중 하나인 Sky가 여배우 스칼렛 요한슨의 목소리와 유사하다는 우려가 제기되었고, 이에 대해 CEO인 샘 알트먼이 "그녀"라고 언급하며 요한슨이 AI 비서 역할을 맡은 영화와 연관 지어 말했습니다. OpenAI는 유명인의 목소리를 재현할 의도가 없으며, 사용자들은 OpenAI에서 제공하는 아홉 가지 독특한 목소리만 사용할 수 있다고 강조했습니다.
출시는 본래 6월 말로 예상되었으나 "7월 말 또는 8월 초"로 연기되었으며, 이는 안전 테스트에 대한 방침이 작용했기 때문입니다. OpenAI는 29개 지역에 걸쳐 45개 언어에 능통한 외부 레드 팀과 함께 광범위한 평가를 실시했습니다. 현재 접근 권한 확대 결정은 OpenAI가 시행한 안전 조치에 대한 신뢰를 나타내며, 미국 및 영국 정부와 협력하고 새로운 모델 출시 전 미리보기를 제공하는 신중한 접근 방침에 부합합니다.