ChatGPT의 고급 음성 모드가 화요일에 일부 OpenAI 구독자를 위해 출시되었습니다. 이는 기대를 모은 알파 릴리스의 일환으로, 전통적인 텍스트 대화를 넘어 자연스럽고 생생한 음성으로 소통하는 혁신적인 기능입니다. 다양한 지역의 억양과 언어를 지원합니다. OpenAI에 따르면 고급 음성 모드는 “더 자연스럽고 실시간으로 대화하며, 언제든지 중단을 허용하고 감정을 감지하여 반응합니다.”
하지만 음성 모드 사용에는 몇 가지 제한이 있습니다. 이 시스템은 네 가지 사전 설정된 목소리만을 지원하며, 개인 사용자나 공적 인물의 목소리를 모방할 수 없습니다. 사전 설정을 벗어난 출력은 자동으로 차단됩니다. 또한, 고급 음성 모드는 저작권이 있는 오디오를 생성하거나 음악을 제작하기 위한 것이 아닙니다. 흥미롭게도, 사용자들은 AI에게 비트박스를 요청하며 이미 다양한 실험을 하고 있습니다.
알파 테스터 이단 수틴은 X(구 트위터)에서 고급 음성의 다양한 반응을 보여주는 스레드를 공유했습니다. 여기에는 짧은 “생일 랩”과 비트박스 시연이 포함되어 있습니다. 사용자는 비트 사이에서 AI의 디지털 호흡 소리를 들을 수 있습니다. 완전한 곡을 만들 수는 없지만, AI는 잠자리 이야기에 재미있는 음향 효과를 추가하여 스토리텔링 경험을 향상시킵니다. 예를 들어, 로봇 사이보그 이야기 중에 몰입감을 주기 위해 적절한 충돌음을 생성합니다.
고급 음성은 생생한 품질을 높이는 현실적인 캐릭터를 즉흥적으로 생성할 수도 있습니다. 사용자는 다양한 어조와 언어로 AI에게 말할 것을 요청하여 상호작용에 깊이를 더할 수 있습니다.
AI의 음성 능력은 단순히 인간의 언어에 국한되지 않습니다. 지시를 받으면, 고급 음성은 고양이 소리를 정확하게 모방할 수 있습니다. 사용자는 자신의 반려동물에 관한 질문을 통해 AI에게 맞춤형 팁과 조언을 실시간으로 받을 수 있습니다.
또한, 고급 음성은 기기의 카메라를 활용하여 번역을 지원할 수 있습니다. 한 예로, 사용자가 일본어 게임보이 어드밴스 포켓몬 게임에 스마트폰을 비추자 AI가 게임 중 화면의 대사를 읽어주었습니다. 비디오 및 화면 공유 기능은 알파 릴리스의 일부가 아니지만, OpenAI는 조만간 이를 도입할 계획입니다. 회사는 앞으로 몇 주 내에 더 많은 Plus 구독자에게 알파 릴리스를 확장할 예정이며, 전체 출시를 이번 가을로 계획하고 있습니다.