Amazon hat bedeutende Verbesserungen an Alexas natürlicher Sprachverarbeitung und Sprachfähigkeiten vorgestellt, die es dem virtuellen Assistenten ermöglichen, menschlichere Interaktionen zu führen. Diese Fortschritte, die erstmals in einer Präsentation im Mai angedeutet wurden, führen ein neues zugrunde liegendes Modell ein, das Gespräche natürlicher und intuitiver gestaltet.
Zu den neuen Funktionen gehört, dass Alexa nun API-Aufrufe tätigen kann, was den Zugriff auf Informationen verbessert und personalisierte Erlebnisse ermöglicht. Das Wissen von Alexa wurde überarbeitet, wodurch die Zuverlässigkeit bei der Bereitstellung faktischer Antworten gestärkt wurde. Zusätzlich hat Amazon das automatische Spracherkennungssystem (ASR) von Alexa neu gestaltet, die Kernalgorithmen und Hardware optimiert und auf ein erweitertes Text-to-Speech-Modell umgestiegen, das auf Tausenden von Stunden mehrsprachiger Audiodaten trainiert wurde. Dieses fortschrittliche ASR-System verfügt über eine raffinierte Funktion zur Wiederherstellung unterbrochener Sprache, was zu reibungsloseren Interaktionen führt.
Ein weiteres Highlight ist das neue Sprach-zu-Sprach-Modell, das menschenähnliche Gesprächsqualitäten hinzufügt, darunter Lachen und die Fähigkeit, den emotionalen Ton des Nutzers widerzuspiegeln. Wenn ein Nutzer beispielsweise Begeisterung zeigt, kann Alexa entsprechend reagieren und so die Interaktion emotional bereichern.
Diese Innovationen wurden von Davd Limp, dem Senior Vice President von Amazon, während einer Veranstaltung am neuen Hauptsitz des Unternehmens in Arlington, Virginia, vorgestellt. Limp betonte, dass die Interaktionen mit Alexa nun so gestaltet sind, dass sie sich „vielleicht wie ein Gespräch mit einem anderen Menschen anfühlen“, und hob die Fortschritte in den Konversationsfähigkeiten des Assistenten hervor.
Eine weitere bemerkenswerte Funktion ermöglicht es Nutzern, Alexa allein durch einen Blick auf den Bildschirm eines Kamera-fähigen Geräts zu aktivieren – ohne das Bedürfnis nach einem Aktivierungswort. Dieses Upgrade, oft mit den neuesten Siri-Updates von Apple verglichen, nutzt neue visuelle Verarbeitung auf dem Gerät in Kombination mit akustischen Modellen, um genau zu erkennen, wann ein Nutzer Alexa anspricht und wann nicht.
Die Einführung dieser beeindruckenden Funktionen wird in den kommenden Monaten erfolgen und richtet sich nach der Vision von CEO Andy Jassy, „den besten persönlichen Assistenten der Welt“ zu schaffen. Im Rahmen dieser Mission hat Amazon ein zentrales Team gegründet, das sich auf ehrgeizige Projekte im Bereich Künstliche Intelligenz konzentriert. Dieses Team, geleitet von Rohit Prasad, dem leitenden Wissenschaftler von Alexa, der direkt an CEO Jassy berichtet, ist bereit, große Sprachmodelle zu entwickeln, die die Funktionalitäten und das Nutzererlebnis von Alexa weiter verbessern werden.