Apple-Forscher haben ein KI-System namens ReALM (Reference Resolution as Language Modeling) entwickelt, das darauf abzielt, die Fähigkeit von Sprachassistenten zur Verständigung und Reaktion auf Befehle erheblich zu verbessern.
In ihrem neuesten Forschungsbericht beschreibt Apple, wie ReALM große Sprachmodelle nutzt, um Herausforderungen bei der Referenzauflösung zu bewältigen. Dieses System brilliert darin, vage Hinweise auf Bildschirmobjekte zu interpretieren und Dialoge im Kontext zu verstehen, wodurch die Interaktionen mit Geräten intuitiver und natürlicher werden.
Die Referenzauflösung ist ein entscheidender Aspekt des Verständnisses natürlicher Sprache, da sie es den Nutzern ermöglicht, Pronomen und indirekte Bezüge in Gesprächen zu verwenden, ohne Verwirrung zu stiften. Dies stellt jedoch eine erhebliche Herausforderung für digitale Assistenten dar, da die Verarbeitung verschiedener verbaler Hinweise und visueller Informationen komplex ist. ReALM vereinfacht diesen komplizierten Prozess, indem es ihn in eine klare Aufgabe der Sprachmodellierung verwandelt, die ein besseres Verständnis der Verweise auf visuelle Elemente auf dem Bildschirm innerhalb des Gesprächs ermöglicht.
ReALM rekonstruiert das visuelle Layout des Bildschirms durch Textdarstellung, analysiert die Objekte auf dem Bildschirm und deren Positionen, um ein Textformat zu generieren, das den Inhalt und die Struktur des Bildschirms widerspiegelt. Die Forscher von Apple fanden heraus, dass speziell abgestimmte Sprachmodelle bei Aufgaben zur Referenzauflösung deutlich besser abschneiden als traditionelle Methoden, einschließlich OpenAI's GPT-4.
Dieser Fortschritt ermöglicht es den Nutzern, effizienter mit digitalen Assistenten zu interagieren, basierend auf den Inhalten, die auf ihren Bildschirmen angezeigt werden, und eliminiert die Notwendigkeit für präzise und detaillierte Beschreibungen. Das eröffnet neue Möglichkeiten für Anwendungen von Sprachassistenten, wie etwa die Unterstützung von Fahrern mit Navigationsinformationen während der Fahrt oder die Bereitstellung einfacher und genauer indirekter Interaktionen für Benutzer mit Behinderungen.
Kürzlich veröffentlichte Apple mehrere Studien zur künstlichen Intelligenz, darunter eine Methode zum Trainieren von großen Sprachmodellen, die einen nahtlosen integrierten Zugang zu Text- und visuellen Informationen ermöglicht. Die Vorfreude auf die bevorstehende WWDC-Konferenz im Juni wächst, bei der Apple voraussichtlich eine Reihe neuer KI-Funktionen vorstellen wird.