OpenAI는 최근 X(구 Twitter)에서 ChatGPT의 기대를 모으고 있는 고급 음성 기능이 “다음 주”부터 ChatGPT-Plus 구독자 중 일부를 대상으로 배포될 예정이라고 발표했습니다. 이번 알파 테스트는 사용자 피드백을 수집하여 이후 기능을 확장하는 데 활용할 계획입니다.
고급 음성 기능은 텍스트 프롬프트 없이 자연스러운 대화를 가능하게 하여 사용자 상호작용을 혁신합니다. 이는 다른 사람과 대화하는 것과 유사합니다. 이 기능은 GPT-4o의 출시와 함께 5월에 처음 소개되었으며, Siri나 Google Assistant와 같은 일반적인 디지털 어시스턴트와는 확연히 차별화됩니다. 이러한 시스템이 스크립트된 반응을 제공하는 것과 달리, ChatGPT의 고급 음성 기능은 다양한 언어로 거의 즉각적이고 인간과 유사한 반응을 제공합니다. GPT-4o 모델은 평균 음성 응답 시간이 320밀리초로, 인간 대화 속도와 유사합니다. 데모 비디오에서는 모델이 다수의 사용자와 소통하고, 영어와 포르투갈어로 자유롭게 대화하며, 웃음 같은 인간적인 감정을 표현하는 모습을 확인할 수 있습니다.
알파 테스트 참가자 선발 방식은 아직 명확하지 않지만, 참가자들은 월 20달러의 ChatGPT Plus 구독자가 되어야 합니다. 최초 6월로 예정되었던 알파 테스트는 시스템의 콘텐츠 조정 기능을 개선하고 예상되는 사용자 수요를 처리하기 위한 IT 인프라를 강화하기 위해 연기되었습니다. 6월에 발표된 바와 같이, 고급 음성 기능의 완전한 배포는 최소한 이번 가을까지는 이루어지지 않을 예정이며, 기능이 높은 안전성과 신뢰성 기준을 충족하는 데 달려 있습니다.
ChatGPT에 자연스러운 대화 기능을 통합하는 것은 중요한 발전입니다. 이 발전은 컨텍스트 윈도우의 필요성을 줄여 하드웨어 요구 사항을 완화하고, 이동성 또는 손재주에 어려움이 있는 사용자에게 AI의 적용 가능성을 넓힙니다. 또한, 상호작용을 단순화함으로써 “헤이 시리”와 같은 음성 명령에 익숙한 사용자들이 프롬프트 엔지니어링에 압도당하지 않도록 AI 기술의 넓은 수용을 촉진할 길을 열어줍니다.