Auf dem Mobile World Congress 2024 erweitert Qualcomm sein Portfolio an KI-Funktionen, die durch die Snapdragon-Serie für Android-Geräte unterstützt werden. Das Unternehmen hat bereits beeindruckende KI-Features für den Snapdragon 8 Gen 3-Flaggschiff vorgestellt, darunter sprachgesteuerte Medienbearbeitung, bildgenerierende Funktionen auf dem Gerät mit Stable Diffusion und einen fortschrittlichen virtuellen Assistenten, der auf großen Sprachmodellen von Meta basiert.
Heute präsentierte Qualcomm Verbesserungen dieser KI-Funktionalitäten. Ein zentrales Merkmal ist der neue Large Language and Vision Assistant (LLaVa), der speziell für Smartphones entwickelt wurde. Dieses innovative Werkzeug funktioniert ähnlich wie ein Chatbot, vergleichbar mit ChatGPT, integriert jedoch auch die Funktionen von Google Lens. So kann Qualcomms Lösung sowohl Texteingaben als auch Bilder verarbeiten.
Ein Beispiel: Sie können ein Foto einer Charcuterie-Platte hochladen und nach den enthaltenen Zutaten fragen. Der KI-Assistent, der auf einem großen multimodalen Modell (LMM) basiert und über 7 Milliarden Parameter verarbeitet, identifiziert verschiedene Früchte, Käse, Fleischsorten und Nüsse im Bild. Er kann auch Folgefragen beantworten und ermöglicht so einen natürlichen Gesprächsfluss. Während ChatGPT und ähnliche Produkte ebenfalls multimodale Funktionen hinzugefügt haben, basieren sie auf cloudbasierter Architektur, die Remote-Server für die Datenverarbeitung nutzt. Qualcomms Ansatz konzentriert sich auf die Verarbeitung auf dem Gerät, was schnellere Antworten und verbesserte Datenschutz gewährleistet, mit minimalem Risiko von Datenverletzungen. Qualcomm betont: „Dieses LMM arbeitet mit einer reaktionsschnellen Token-Rate auf dem Gerät, was die Privatsphäre, Zuverlässigkeit, Personalisierung und Kosteneffizienz erhöht.“ Ob der auf LLaVa basierende virtuelle Assistent von Qualcomm als eigenständige App oder gegen Gebühr angeboten wird, bleibt unbestätigt.
Die nächste bedeutende Ankündigung von Qualcomm befasst sich mit den kreativen Aspekten der Bildgenerierung und -bearbeitung. Kürzlich demonstrierte Qualcomm die schnellste Text-zu-Bild-Generierung auf einem Smartphone unter Verwendung von Stable Diffusion-Technologie. Heute gab das Unternehmen einen Ausblick auf die LoRA-gesteuerte Bildgenerierung.
LoRA, oder Low-Rank Adaptation, ist eine neuartige Technik, die von Microsoft entwickelt wurde und einen anderen Ansatz zur Bildgenerierung bietet als traditionelle generative KI-Tools wie DALL·E. Das Training von KI-Modellen kann kostspielig, langsam und hardwareintensiv sein. LoRA löst diese Herausforderungen, indem es das Modellgewicht erheblich reduziert und sich auf spezifische Segmente konzentriert sowie die Anzahl der Parameter während des Trainingsprozesses begrenzt. Dies führt zu geringeren Speicheranforderungen und schnelleren Abläufen, wodurch die Anpassung von Text-zu-Bild-Modellen erheblich vereinfacht wird.
Die LoRA-Destillationsmethode wurde erfolgreich in das Stable Diffusion-Modell integriert, um Bilder aus Texteingaben zu generieren. Aufgrund ihrer Effizienz und Anpassungsfähigkeit gilt LoRA als besonders geeignet für Smartphones. Qualcomm glaubt an ihr Potenzial, und selbst der Wettbewerber MediaTek verfolgt diesen Ansatz für generative KI-Funktionen auf seinem Flaggschiff-Dimensity 9300-Chip.
Auf der MWC 2024 präsentiert Qualcomm zudem eine Vielzahl von KI-Funktionen, von denen einige bereits auf dem Samsung Galaxy S24 Ultra verfügbar sind. Zu diesen Fähigkeiten gehören die Möglichkeit, die Leinwand eines Bildes mit generativer KI zu erweitern, sowie die KI-gestützte Videoerstellung, die besonders ambitioniert ist. Es wird spannend sein zu sehen, wie Qualcomm diese fortschrittlichen Technologien erfolgreich auf Smartphones umsetzt.