Meta's Llama 3.2: Eine neue Ära der multimodalen KI
Heute auf der Meta Connect veröffentlichte das Unternehmen Llama 3.2, sein erstes bedeutendes Vision-Modell, das sowohl Bilder als auch Texte versteht. Llama 3.2 enthält kleine und mittelgroße Modelle (11B und 90B Parameter) sowie leichtere, nur auf Text optimierte Modelle (1B und 3B Parameter), die für mobile und Edge-Geräte optimiert sind.
„Dies ist unser erstes Open-Source-Multimodal-Modell“, erklärte Meta-CEO Mark Zuckerberg in seiner Keynote. „Es ermöglicht eine Vielzahl von Anwendungen, die visuelles Verständnis erfordern.“ Ähnlich wie sein Vorgänger bietet Llama 3.2 einen umfassenden Kontextrahmen von 128.000 Tokens, was die Eingabe umfangreicher Texte ermöglicht, die Hunderte von Lehrbuchseiten entsprechen. Höhere Parameterzahlen erhöhen typischerweise die Genauigkeit und Fähigkeiten des Modells bei der Bearbeitung komplexer Aufgaben.
Meta stellte auch offizielle Llama-Stack-Distributionen vor, die Entwicklern helfen, diese Modelle in verschiedenen Umgebungen zu nutzen, einschließlich On-Premises-, On-Device-, Cloud- und Single-Node-Setups. „Open Source ist — und wird weiterhin — die kostengünstigste, anpassungsfähigste und zuverlässigste Option sein“, betonte Zuckerberg. „Wir haben einen Wendepunkt in der Branche erreicht; es wird zum Standard, vergleichbar mit Linux in der KI.“
Wettbewerb mit Claude und GPT-4o
Nur etwas mehr als zwei Monate nach der Einführung von Llama 3.1 berichtet Meta von einem zehnfachen Wachstum der Fähigkeiten. „Llama entwickelt sich rasant weiter“, bemerkte Zuckerberg. „Es öffnet ein wachsendes Spektrum an Funktionalitäten.“
Die beiden größten Modelle in Llama 3.2 (11B und 90B) unterstützen jetzt die Bildnutzung, was es ihnen ermöglicht, Diagramme zu interpretieren, Bildunterschriften zu generieren und Objekte aus natürlichen Sprachaufforderungen zu identifizieren. Beispielsweise können Nutzer nach dem umsatzstärksten Monat ihres Unternehmens fragen, und das Modell kann eine Antwort anhand verfügbarer Grafiken ableiten. Die größeren Modelle können Informationen aus Bildern extrahieren, um detaillierte Beschreibungen zu erstellen.
Die leichteren Modelle erleichtern die Entwicklung personalisierter Apps für den privaten Gebrauch, wie zum Beispiel die Zusammenfassung kürzlicher Kommunikationsverläufe oder die Verwaltung von Kalendereinladungen für Folgetreffen. Meta behauptet, dass Llama 3.2 im Bereich der Bilderkennung und des visuellen Verständnisses wettbewerbsfähig mit Anthropics Claude 3 Haiku und OpenAIs GPT-4o-mini ist. Besonders hervorzuheben ist, dass es Konkurrenten wie Gemma und Phi 3.5-mini in den Bereichen Befehlsbefolgung, Zusammenfassung, Nutzung von Tools und Umformulierung von Eingabeaufforderungen übertrifft.
Die Llama 3.2-Modelle sind zum Download auf llama.com, Hugging Face und den Partnerplattformen von Meta verfügbar.
Erweiterte Geschäftsanwendungen der KI und ansprechende Verbraucherfeatures
Meta verbessert auch seine Geschäftsanwendungen für KI, die es Unternehmen ermöglichen, Click-to-Message-Anzeigen auf WhatsApp und Messenger zu nutzen. Dazu gehören Agenten, die häufige Anfragen beantworten, Produktdetails diskutieren und Käufe abschließen können. Das Unternehmen berichtet, dass über 1 Million Werbetreibende seine generativen KI-Tools nutzen, was im vergangenen Monat zu 15 Millionen erstellten Anzeigen geführt hat. Im Durchschnitt verzeichnen Werbekampagnen, die Metas generative KI verwenden, einen Anstieg der Klickrate um 11 % und einen Anstieg der Konversionsrate um 7,6 %.
Für Verbraucher entwickelt sich Meta AI zu einer „Stimme“, einschließlich mehrerer Promi-Stimmen wie Dame Judi Dench, John Cena, Keegan-Michael Key, Kristen Bell und Awkwafina. „Ich glaube, dass die Sprachinteraktion eine natürlichere Art ist, mit KI umzugehen als Text“, sagte Zuckerberg. „Es ist einfach viel besser.“
Das Modell kann auf Sprach- oder Textbefehle in prominenten Stimmen auf Plattformen wie WhatsApp, Messenger, Facebook und Instagram reagieren. Meta AI wird auch auf geteilte Fotos antworten können und dabei die Möglichkeit bieten, Bilder durch das Hinzufügen oder Ändern von Hintergründen zu bearbeiten. Darüber hinaus experimentiert Meta mit neuen Übersetzungs-, Video-Dubbing- und Lippen-Synchronisationstools für Meta AI.
Zuckerberg bekräftigte, dass Meta AI voraussichtlich der weltweit meistgenutzte Assistent werden wird, und behauptete: „Es ist wahrscheinlich schon dort.“