OpenAI startet den Sprachmodus GPT-4o für ChatGPT Plus-Nutzer und verbessert damit natürliche Echtzeitgespräche.

Kürzlich hat OpenAI ein wichtiges Update angekündigt: Die Alpha-Version des GPT-4o Sprachmoduls ist jetzt für ausgewählte ChatGPT Plus-Abonnenten verfügbar, mit Plänen für eine breitere Einführung in diesem Herbst. Diese Entwicklung stellt einen bedeutenden Fortschritt in der Integration von Natural Language Processing und Sprachinteraktionstechnologien dar.

GPT-4o ist OpenAIs neuestes einheitliches Modell, das in der Lage ist, Text-, Bild- und Audioeingaben über dasselbe neuronale Netzwerk zu verarbeiten, was eine nahtlose Verbindung ermöglicht. Diese Fähigkeit verbessert nicht nur die Gesamtleistung des Modells, sondern bietet den Nutzern auch ein natürlicheres und sofortigeres Gesprächserlebnis.

Mira Murati, Chief Technology Officer von OpenAI, erklärt, dass GPT-4o den ersten umfassenden Versuch des Unternehmens darstellt, Text-, Bild- und Audiodaten zu verbinden. Obwohl sich das Modell noch in der frühen Phase der Funktionserkundung und Begrenzungsbewertung befindet, bleibt das Team optimistisch bezüglich seines Potenzials und arbeitet aktiv an Optimierungen.

Ursprünglich für Ende Juni geplant, wurde die Testphase des GPT-4o Sprachmodus verschoben, um das Modell weiter zu verfeinern. OpenAI hat angekündigt, die Fähigkeit des Modells zu verbessern, unangemessene Inhalte zu erkennen und abzulehnen, um eine sichere und positive Benutzererfahrung zu gewährleisten. Dank dieser Bemühungen wurde der GPT-4o Sprachmodus früher als geplant eingeführt, wodurch er einem breiteren Publikum zur Verfügung steht.

Im Vergleich zu GPT-3.5 und GPT-4 übertrifft GPT-4o die Sprachkommunikation. Daten zeigen, dass die durchschnittliche Verzögerung bei der Sprachantwort von GPT-3.5 2,8 Sekunden betrug, während GPT-4 diese auf 5,4 Sekunden verlängerte, was die Gesprächsflüssigkeit beeinträchtigte. Durch technische Optimierungen konnte GPT-4o diese Verzögerung jedoch dramatisch reduzieren und bietet ein nahezu nahtloses Gesprächserlebnis. Es zeichnet sich durch schnelle Antworten und einen äußerst realistischen Ton aus und kann Emotionen wie Traurigkeit und Aufregung wahrnehmen und simulieren, was den Dialog lebendiger gestaltet.

Während OpenAI den GPT-4o Sprachmodus fördert, betont es sein Engagement für Benutzerdatenschutz und Sicherheit. Unternehmenssprecherin Lindsay McCallum erklärte, dass ChatGPT niemals die Stimme einer Person oder einer öffentlichen Figur imitieren wird und Ausgaben, die nicht mit voreingestellten Stimmen übereinstimmen, streng eingeschränkt sind, um die Rechte und die Privatsphäre der Benutzer zu schützen.

Mit der Einführung des GPT-4o Sprachmodus strebt OpenAI weiterhin danach, Innovationen in der künstlichen Intelligenz voranzutreiben und intelligentere, bequemere und sichere Sprachinteraktions-Erlebnisse zu bieten.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles