Entdecken Sie die Vorteile des GPT-4o Advanced Voice Mode: Vorstellung von Humes EVI 2 mit emotionaler Sprach-KI und API-Lösungen.

Als wir zuletzt über Hume berichteten, das innovative KI-Startup, das von dem ehemaligen Google DeepMind-Wissenschaftler Alan Cowen mitbegründet wurde, war es Frühjahr 2024. Zu diesem Zeitpunkt hatte das Unternehmen gerade 50 Millionen Dollar in einer Series-B-Finanzierungsrunde gesichert, um seine einzigartige Sprach-KI-Technologie weiterzuentwickeln.

Hume, benannt nach dem schottischen Philosophen des 18. Jahrhunderts, David Hume, nutzt interkulturelle Sprachaufnahmen, die mit selbstberichteten emotionalen Umfragen abgeglichen werden, um ein KI-Modell zu schaffen, das lebensechte Sprachäußerungen produziert und Nuancen in verschiedenen Sprachen und Dialekten versteht.

Kürzlich hat Hume sein verbessertes Empathic Voice Interface 2 (EVI 2) vorgestellt, das darauf abzielt, Natürlichkeit, emotionale Reaktionsfähigkeit und Anpassungsfähigkeit zu steigern, während die Kosten für Entwickler und Unternehmen gesenkt werden. EVI 2 bietet eine Reduzierung der Latenz um 40 % und ist 30 % günstiger als sein Vorgänger über die API.

Cowen betonte das Ziel, Entwicklern die Integration dieser Technologie in ihre Anwendungen zu ermöglichen, um ein vertrauenswürdiges und personalisiertes Nutzererlebnis zu schaffen. Das neue Design erlaubt es Sprachassistenten, die von EVI 2 unterstützt werden, direkt innerhalb von Apps zu funktionieren, was die Nutzerinteraktionen verbessert, ohne einen separaten KI-Assistenten zu benötigen.

Der Zeitpunkt der Markteinführung von EVI 2 verschafft Hume einen Vorteil in einem überfüllten KI-Markt und zeigt seine Fähigkeiten im Vergleich zu Konkurrenten wie Anthropic und OpenAI. Während OpenAIs ChatGPT im erweiterten Sprachmodus, basierend auf dem Modell GPT-4o, noch in begrenzter Veröffentlichung ist, behauptet Cowen, dass EVI 2 in der Emotionserkennung und -reaktion überlegen ist.

EVI 2 ist für schnellere, flüssigere Gespräche konzipiert und bietet Reaktionszeiten von unter einer Sekunde sowie Unterstützung für eine Vielzahl von Sprachanpassungen. Zu den wichtigsten Fortschritten gehören:

- Schnellere Reaktionszeiten: EVI 2 reduziert die Latenz um 40 % mit Reaktionszeiten zwischen 500 und 800 Millisekunden für einen natürlicheren Gesprächstext.

- Emotionale Intelligenz: Durch die Integration von Stimme und Sprache kann EVI 2 den emotionalen Kontext verstehen und somit angemessene und einfühlsame Interaktionen gewährleisten.

- Anpassbare Stimmen: Eine neue Stimmmodulationsmethode ermöglicht es Entwicklern, Parameter wie Tonhöhe und Geschlecht anzupassen und somit vielseitige Stimmoptionen ohne die Risiken des Stimmklonens anzubieten.

- In-Gesprächs-Aufforderungen: Nutzer können den Sprechstil der KI dynamisch ändern, um interaktive Interaktionen zu fördern.

- Mehrsprachige Fähigkeiten: EVI 2 unterstützt derzeit Englisch und plant, bis Ende 2024 Spanisch, Französisch und Deutsch hinzuzufügen. Bemerkenswerterweise hat das Modell mehrere Sprachen autonom durch Datenexposition erlernt.

Hume AI hat zudem die Preisstruktur für EVI 2 auf 0,072 $ pro Minute angepasst, was einer 30%igen Senkung im Vergleich zu den Kosten des vorherigen Modells entspricht. Unternehmenskunden profitieren von Mengenrabatten, die die Skalierbarkeit für Unternehmen mit hohem Bedarf verbessern.

EVI 2 steht derzeit in der Beta-Version zur Verfügung und kann über die API von Hume integriert werden. Entwickler können bis zu dessen Abkündigung im Dezember 2024 dieselben Konfigurationsoptionen wie bei EVI 1 nutzen.

Insgesamt verkörpert EVI 2 das Engagement von Hume AI für die Optimierung des Nutzererlebnisses durch KI, mit einem Fokus auf emotionale Ausrichtung und Reaktionsfähigkeit. Zukünftige Updates werden erweiterte Sprachunterstützung und nahtlose Integration mit anderen großen Sprachmodellen und Tools beinhalten und so sicherstellen, dass Entwickler eine robuste Ressource für ihre Anwendungen zur Verfügung haben.

Neben EVI 2 bietet Hume AI weiterhin die Expression Measurement API und die Custom Models API an, um die Möglichkeiten für Entwickler zu erweitern, die an emotional reagierender KI arbeiten.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles