Apple-Forscher entwickeln KI, die den Bildschirm kontextuell „sieht“ und versteht, um die Benutzererfahrung zu verbessern.

Forscher von Apple haben ein fortschrittliches Künstliche-Intelligenz-System präsentiert, das das Verständnis von mehrdeutigen Referenzen und dem umgebenden Kontext durch Sprachassistenten verbessert und so natürlicheren Interaktionen fördert. Diese Innovation, die in einem am Freitag veröffentlichten Papier erläutert wird, trägt den Namen ReALM (Referenzauflösung als Sprachmodellierung).

ReALM nutzt große Sprachmodelle, um die komplexe Aufgabe der Referenzauflösung – einschließlich der Identifikation von visuellen Elementen auf einem Bildschirm – in eine Sprachmodellierungsherausforderung umzuwandeln. Dieser Ansatz führt zu signifikanten Leistungsverbesserungen im Vergleich zu aktuellen Methoden.

"Das Verständnis des Kontexts, einschließlich der Referenzen, ist entscheidend für einen Konversationsassistenten", erklärte das Forschungsteam. "Benutzern zu ermöglichen, sichtbare Bildschirminhalte abzufragen, ist entscheidend für ein echtes freihändiges Erlebnis mit Sprachassistenten."

Verbesserung der Konversationsassistenten

Ein herausragendes Merkmal von ReALM ist die Fähigkeit, Bildschirminhalte mithilfe von analysierten Entitäten und deren Positionen zu rekonstruieren, wodurch eine textliche Darstellung erzeugt wird, die mit dem visuellen Layout übereinstimmt. Das Team zeigte, dass diese Methode, kombiniert mit einer speziellen Feinabstimmung der Sprachmodelle für die Referenzauflösung, die Leistung von GPT-4 übertrifft.

Apples KI-System ReALM kann effektiv auf Bildschirmobjekte, wie etwa die Anzeige „260 Sample Sale“ in einem Mockup, referenzieren, was reichhaltigere Interaktionen mit Sprachassistenten fördert. "Wir zeigen signifikante Verbesserungen gegenüber bestehenden Systemen im Umgang mit verschiedenen Referenzarten, wobei unser kleinster Modell über 5 % Genauigkeitssteigerung bei Bildschirmreferenzen erzielt", bemerkten die Forscher. "Unsere größeren Modelle übertreffen GPT-4 erheblich."

Praktische Anwendungen und Herausforderungen

Diese Forschung hebt das Potenzial spezialisierter Sprachmodelle hervor, Aufgaben wie die Referenzauflösung in Produktionsumgebungen durchzuführen, wo große End-to-End-Modelle aufgrund von Latenz oder Rechenanforderungen möglicherweise nicht praktikabel sind. Mit der Veröffentlichung dieser Erkenntnisse bekräftigt Apple sein Engagement zur Verbesserung der konversationellen und kontextbewussten Fähigkeiten von Siri und anderen Produkten.

Das Team erkennt jedoch die Herausforderungen bei der automatisierten Analyse von Bildschirminhalten an. Die Handhabung komplexer visueller Referenzen – wie die Unterscheidung zwischen mehreren Bildern – könnte die Integration von Computer Vision und multimodalen Techniken erfordern.

Apples KI-Ambitionen

Apple macht rasante Fortschritte in der Forschung zur Künstlichen Intelligenz, obwohl das Unternehmen derzeit hinter seinen Wettbewerbern in der AI-Dominanz zurückliegt. Zu den jüngsten Entwicklungen zählen multimodale Modelle, die visuelle und sprachliche Daten integrieren, sowie KI-gesteuerte Animationstools.

Trotz seines vorsichtigen Ansatzes sieht sich Apple einem starken Wettbewerb von Google, Microsoft, Amazon und OpenAI gegenüber, die aggressiv generative KI in ihre Produkte integrieren.

Da sich die KI-Landschaft schnell weiterentwickelt, befindet sich Apple in einer herausfordernden Position. Die Vorfreude auf die bevorstehende Worldwide Developers Conference wächst, wo das Unternehmen voraussichtlich ein neues Framework für große Sprachmodelle, bekannt als "Apple GPT", sowie zusätzliche KI-gestützte Funktionen für seine Produktlinie vorstellen wird.

CEO Tim Cook deutete während einer Telefonkonferenz an, dass Details zu Apples laufenden KI-Initiativen später in diesem Jahr geteilt werden. Während die Strategie des Unternehmens diskret bleibt, wird die Reichweite seiner KI-Bemühungen offensichtlich erweitert.

Mit dem intensiver werdenden Wettbewerb um die KI-Führung hat sich Apples später Einstieg unter Wettbewerbsdruck gesetzt. Dennoch bieten die enormen Ressourcen, die Markenloyalität, überlegene Ingenieurskunst und das integrierte Produktportfolio des Unternehmens potenzielle Vorteile.

Eine neue Ära intelligenter Computertechnologie steht bevor. Im Juni werden wir sehen, ob Apple ausreichend auf diese Transformation vorbereitet ist.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles