OpenAI hat kürzlich auf X (ehemals Twitter) angekündigt, dass die mit Spannung erwartete Funktion für die erweiterte Sprachsteuerung von ChatGPT „nächste Woche“ schrittweise für eine ausgewählte Gruppe von ChatGPT-Plus-Abonnenten verfügbar sein wird. Dieser Alpha-Test zielt darauf ab, Nutzerrückmeldungen zu sammeln, bevor die Funktion basierend auf diesen Erkenntnissen erweitert wird.
Die erweiterte Sprachsteuerung revolutioniert die Benutzerinteraktion, indem sie natürliche Gespräche ohne Textaufforderungen ermöglicht – ähnlich wie ein Gespräch mit einer anderen Person. Diese Funktion wurde erstmals im Mai während der Einführung von GPT-4o bei der Frühjahrsvorstellung des Unternehmens präsentiert und zeichnet sich von typischen digitalen Assistenten wie Siri und Google Assistant ab. Im Gegensatz zu diesen Systemen, die oft vorgefertigte Antworten liefern, bietet ChatGPTs erweiterte Sprachsteuerung nahezu sofortige, menschenähnliche Antworten in verschiedenen Sprachen. Das Modell GPT-4o hat eine durchschnittliche Audioantwortzeit von nur 320 Millisekunden, was mit der Geschwindigkeit von menschlichen Gesprächen vergleichbar ist. Im Demovideo können die Zuschauer sehen, wie das Modell mit mehreren Nutzern interagiert, Diskussionen sowohl in Englisch als auch in Portugiesisch improvisiert und menschliche Emotionen wie Lachen zeigt.
Details zur Auswahl der Teilnehmer für den Alpha-Test sind noch unklar, allerdings müssen sie $20/Monat für ein ChatGPT Plus-Abonnement zahlen. Ursprünglich für Juni geplant, wurde die Alpha-Version verschoben, um die Inhalte moderierenden Fähigkeiten des Systems zu verbessern und die IT-Infrastruktur zu stärken, um die erwartete Nutzerzahl zu bewältigen. Wie im Juni angekündigt, wird mit einer vollständigen Einführung der erweiterten Sprachsteuerung voraussichtlich nicht vor diesem Herbst gerechnet, und der Zeitpunkt hängt davon ab, ob die Funktion hohe Sicherheits- und Zuverlässigkeitsstandards erfüllt.
Die Integration natürlicher Konversationsfähigkeiten in ChatGPT stellt einen bedeutenden Fortschritt dar. Diese Weiterentwicklung reduziert die Notwendigkeit eines Kontextfensters, erleichtert die Hardwareanforderungen und erweitert die potenziellen Anwendungen der KI – insbesondere für Nutzer mit Mobilitäts- oder Geschicklichkeitseinschränkungen. Darüber hinaus ebnet diese Funktion den Weg für eine breitere Akzeptanz von KI-Technologie bei Nutzern, die mit Sprachbefehlen wie „Hey Siri“ vertraut sind, aber die Prompt-Programmierung als herausfordernd empfinden.