Apple-Forscher haben ein bahnbrechendes KI-System namens ReALM (Reference Resolution As Language Modeling) entwickelt, das die Art und Weise, wie digitale Assistenten vage Hinweise und Gesprächskontexte interpretieren, verbessert und so natürlicher Interaktionen ermöglicht. Diese innovative Entwicklung wurde kürzlich angekündigt.
ReALM nutzt große Sprachmodelle, um komplexe Aufgaben der Bezugserkennung, wie das Verständnis von visuellen Elementen auf dem Bildschirm, in sprachmodellierte Herausforderungen umzuwandeln. Laut dem Apple-Forschungsteam übertrifft dieser Ansatz traditionelle Methoden erheblich. "Das Verständnis von Kontext und Referenzen ist entscheidend für Konversationsassistenten. Den Nutzern zu ermöglichen, Inhalte auf dem Bildschirm abzufragen, ist ein wichtiger Schritt zu einem wirklich freihändigen Erlebnis."
Ein bedeutender Fortschritt von ReALM in der Bezugserkennung ist die Fähigkeit, On-Screen-Entitäten durch Standortparsing zu repositionieren, wodurch eine Textdarstellung erzeugt wird, die das visuelle Layout beibehält. Tests haben gezeigt, dass diese Methode, kombiniert mit auf Bezugserkennung speziell feinabgestimmten Sprachmodellen, die Leistung von GPT-4 übertraf. Die Forscher bemerkten: "Unser System hat die Leistung bei verschiedenen Arten von Referenzen erheblich verbessert, mit einem über 5%igen absoluten Gewinn bei Aufgaben mit Bildschirmreferenzen durch das kleinere Modell, während das größere Modell GPT-4 deutlich übertraf."
Diese Studie hebt das Potenzial spezialisierter Sprachmodelle zur Lösung von Bezugserkennungsaufgaben hervor. In der Praxis kann der Einsatz massiver End-to-End-Modelle aufgrund von Latenz oder Rechenbeschränkungen unpraktisch sein. Die Ergebnisse zeigen Apples fortwährende Verpflichtung zur Verbesserung der Konversationsfähigkeit und des kontextuellen Verständnisses von Siri und anderen Produkten.
Dennoch warnten die Forscher, dass das automatische Bildschirm-Parsing seine Grenzen hat. Eine adressierung komplexerer visueller Referenzen, wie das Unterscheiden zwischen mehreren Bildern, könnte die Integration von Computer Vision und multimodalen Technologien erfordern.
Apple hat im Bereich KI leise bedeutende Fortschritte gemacht, bleibt jedoch in diesem sich schnell entwickelnden Markt hinter der Konkurrenz zurück. Die Forschungslabore des Unternehmens innovieren kontinuierlich in multimodalen Modellen, KI-gesteuerten Werkzeugen und leistungsstarken, spezialisierten KI-Technologien, was Apples Ambitionen im Bereich der künstlichen Intelligenz widerspiegelt.
Die Vorfreude steigt auf die kommende Worldwide Developers Conference im Juni, wo Apple voraussichtlich neue Frameworks für große Sprachmodelle, einen "Apple GPT" Chatbot und andere KI-Funktionalitäten innerhalb seines Ökosystems vorstellen wird, um schnell auf sich ändernde Marktbedingungen zu reagieren.