Apple Forschungsteam präsentiert KI-System mit 'Vision'-Funktion zur Analyse von Bildschirm-Inhalten

Home Hardware Apple Forschungsteam präsentiert KI-System mit 'Vision'-Funktion zur Analyse von Bildschirm-Inhalten

Apple-Forscher haben ein bahnbrechendes KI-System namens ReALM (Reference Resolution As Language Modeling) entwickelt, das die Art und Weise, wie digitale Assistenten vage Hinweise und Gesprächskontexte interpretieren, verbessert und so natürlicher Interaktionen ermöglicht. Diese innovative Entwicklung wurde kürzlich angekündigt.

ReALM nutzt große Sprachmodelle, um komplexe Aufgaben der Bezugserkennung, wie das Verständnis von visuellen Elementen auf dem Bildschirm, in sprachmodellierte Herausforderungen umzuwandeln. Laut dem Apple-Forschungsteam übertrifft dieser Ansatz traditionelle Methoden erheblich. "Das Verständnis von Kontext und Referenzen ist entscheidend für Konversationsassistenten. Den Nutzern zu ermöglichen, Inhalte auf dem Bildschirm abzufragen, ist ein wichtiger Schritt zu einem wirklich freihändigen Erlebnis."

Ein bedeutender Fortschritt von ReALM in der Bezugserkennung ist die Fähigkeit, On-Screen-Entitäten durch Standortparsing zu repositionieren, wodurch eine Textdarstellung erzeugt wird, die das visuelle Layout beibehält. Tests haben gezeigt, dass diese Methode, kombiniert mit auf Bezugserkennung speziell feinabgestimmten Sprachmodellen, die Leistung von GPT-4 übertraf. Die Forscher bemerkten: "Unser System hat die Leistung bei verschiedenen Arten von Referenzen erheblich verbessert, mit einem über 5%igen absoluten Gewinn bei Aufgaben mit Bildschirmreferenzen durch das kleinere Modell, während das größere Modell GPT-4 deutlich übertraf."

Diese Studie hebt das Potenzial spezialisierter Sprachmodelle zur Lösung von Bezugserkennungsaufgaben hervor. In der Praxis kann der Einsatz massiver End-to-End-Modelle aufgrund von Latenz oder Rechenbeschränkungen unpraktisch sein. Die Ergebnisse zeigen Apples fortwährende Verpflichtung zur Verbesserung der Konversationsfähigkeit und des kontextuellen Verständnisses von Siri und anderen Produkten.

Dennoch warnten die Forscher, dass das automatische Bildschirm-Parsing seine Grenzen hat. Eine adressierung komplexerer visueller Referenzen, wie das Unterscheiden zwischen mehreren Bildern, könnte die Integration von Computer Vision und multimodalen Technologien erfordern.

Apple hat im Bereich KI leise bedeutende Fortschritte gemacht, bleibt jedoch in diesem sich schnell entwickelnden Markt hinter der Konkurrenz zurück. Die Forschungslabore des Unternehmens innovieren kontinuierlich in multimodalen Modellen, KI-gesteuerten Werkzeugen und leistungsstarken, spezialisierten KI-Technologien, was Apples Ambitionen im Bereich der künstlichen Intelligenz widerspiegelt.

Die Vorfreude steigt auf die kommende Worldwide Developers Conference im Juni, wo Apple voraussichtlich neue Frameworks für große Sprachmodelle, einen "Apple GPT" Chatbot und andere KI-Funktionalitäten innerhalb seines Ökosystems vorstellen wird, um schnell auf sich ändernde Marktbedingungen zu reagieren.

Zukünftige KI-Innovationen für das iPhone: Neue Funktionen und bevorstehende Trends im Überblick

Apple-Forscher Behaupten, dass das ReALM-Gerätemodell GPT-4 Übertrifft und Siri's Intelligenz Signifikant Verbessert

Most people like

Jam

648.3K

Vorstellung von Jam: einem effizienten Tool zur Fehlerberichterstattung, das den Prozess für Benutzer optimiert. Mit seiner benutzerfreundlichen Oberfläche erleichtert Jam es Teams, Probleme zu identifizieren, zu verfolgen und effektiv zu lösen.

Fehlerberichterstattung AI Testing & QA

Juicebox

9.2K

Entdecken Sie die Kraft unserer KI-gesteuerten Personensuchmaschine, die darauf ausgelegt ist, Sie mühelos mit anderen zu verbinden. Durch modernste KI-Technologie ermöglicht unsere Plattform den Nutzern, schnell und effektiv Menschen zu finden und zu kontaktieren. Ob Sie alte Freunde, berufliche Kontakte oder Networking-Möglichkeiten suchen, unsere Suchmaschine optimiert den Prozess und stellt sicher, dass Sie die benötigten Informationen im Handumdrehen abrufen können. Erleben Sie noch heute die Zukunft der Personensuche!

KI-gesteuerte Suchmaschine AI Recruiting

Oncely

34K

Steigern Sie Ihre Verkaufszahlen, indem Sie Ihre AI-Software noch heute auf Oncely starten!

KI-Business-Software Other

Deciphr AI

43.7K

Deciphr AI revolutioniert die Inhaltserstellung mit modernen KI-Lösungen. Erleben Sie die Zukunft der Inhaltserzeugung mit leistungsstarken Werkzeugen, die Kreativität und Effizienz fördern.

Inhaltsproduktion Transcription

Find AI tools in YBX