Das Allen Institute for AI (Ai2) hat offiziell Molmo vorgestellt, eine Open-Source-Suite hochentwickelter multimodaler KI-Modelle, die in mehreren unabhängigen Benchmarks führende proprietäre Wettbewerber wie OpenAI’s GPT-4o, Anthropic’s Claude 3.5 Sonnet und Google’s Gemini 1.5 übertreffen.
Als multimodale Modelle können Molmo Bilder und Dateien analysieren, ähnlich wie führende proprietäre Basis-Möglichkeiten. Bemerkenswert ist, dass Ai2 behauptet, Molmo nutze „1000x weniger Daten“ als seine proprietären Pendants, dank innovativer Trainingsmethoden, die in einem neu veröffentlichten technischen Bericht des von Paul Allen gegründeten Unternehmens unter der Leitung von Ali Farhadi detailliert beschrieben sind.
Ai2 hat auch ein Demovideo auf YouTube veröffentlicht, das zeigt, wie Molmo auf Smartphones funktioniert, um Live-Szenen effizient zu analysieren. Nutzer können einfach ein Foto aufnehmen, das sofort verarbeitet wird – Beispiele sind das Zählen von Personen, die Identifizierung veganer Menüartikel, die Interpretation von Flyern, die Unterscheidung elektronischer Musikgruppen und die Umwandlung handschriftlicher Notizen von Whiteboards in strukturierte Tabellen.
Diese Veröffentlichung spiegelt Ai2s Engagement wider, offene Forschung zu fördern, indem leistungsstarke Modelle mit zugänglichem Gewicht und Daten der breiten Gemeinschaft und Unternehmen zur Verfügung gestellt werden, die an anpassbaren Lösungen interessiert sind. Molmo folgt der kürzlichen Einführung von OLMoE, einem kosteneffizienten Modell, das eine „Mixture of Experts“-Architektur nutzt.
Modelle und Leistung
Molmo besteht aus vier Hauptmodellen mit unterschiedlichen Parametergrößen und Fähigkeiten:
- Molmo-72B: Das Flaggschiffmodell mit 72 Milliarden Parametern, basierend auf Alibaba Clouds Qwen2-72B.
- Molmo-7B-D: Ein Demomodell, das von Alibabas Qwen2-7B abgeleitet ist.
- Molmo-7B-O: Basierend auf Ai2s OLMo-7B.
- MolmoE-1B: Ein auf Effizienz fokussiertes Modell, das in akademischen Benchmarks und bei Nutzerpräferenzen nahezu die Leistung von GPT-4V erreicht.
Diese Modelle zeigen beeindruckende Fähigkeiten in verschiedenen unabhängigen Benchmarks und übertreffen kontinuierlich viele proprietäre Alternativen. Alle Modelle sind unter der permissiven Apache 2.0-Lizenz verfügbar, was umfangreiche Forschung und kommerzielle Nutzung ermöglicht. Molmo-72B hebt sich in akademischen Bewertungen hervor, da es in 11 wichtigen Benchmarks die höchsten Punktzahlen erzielt und bei der Nutzerpräferenz den zweiten Platz, direkt hinter GPT-4o, einnimmt.
Der KI-Entwickler Vaibhav Srivastav von Hugging Face betonte, dass Molmo eine robuste Alternative zu geschlossenen Systemen schafft und den Standard für offene multimodale KI erhöht. Außerdem lobte der Robotik-Forscher Ted Xiao von Google DeepMind die Integration von Pointing-Daten in Molmo, eine entscheidende Verbesserung für die visuelle Verankerung in der Robotik, die die Interaktion mit physischen Umgebungen verbessert.
Fortschrittliche Architektur und Training
Die Architektur von Molmo ist für optimale Effizienz und Leistung konzipiert. Jedes Modell verwendet OpenAIs ViT-L/14 336px CLIP-Modell als Vision-Encoder, das Multiskalenbilder in Vision-Tokens umwandelt. Diese Tokens werden durch einen Mehrschicht-Perzeptron (MLP) Connector verarbeitet, bevor sie in das Sprachmodell integriert werden.
Das Trainingsprotokoll umfasst zwei wesentliche Phasen:
- Multimodales Pre-Training: Die Modelle werden trainiert, um Beschreibungen von Bildern zu generieren, die von menschlichen Gutachtern bereitgestellt werden, unter Verwendung eines hochwertigen Datensatzes namens PixMo.
- Überwachtes Fine-Tuning: Die Modelle werden auf einem vielfältigen Datensatz feinjustiert, der akademische Benchmarks und neu entwickelte Datensätze umfasst und sie auf komplexe Aufgaben wie Dokumentenlesen und visuelles Denken vorbereitet.
Im Gegensatz zu vielen zeitgenössischen Modellen verlässt sich Molmo nicht auf Reinforcement Learning mit menschlichem Feedback (RLHF), sondern nutzt eine präzise abgestimmte Trainingspipeline, die alle Parameter basierend auf den Pre-Training-Zuständen aktualisiert.
Benchmark-Leistung
Die Molmo-Modelle zeigen herausragende Ergebnisse in verschiedenen Benchmarks und übertreffen dabei bemerkenswert proprietäre Modelle. Zum Beispiel erzielt Molmo-72B 96,3 bei DocVQA und 85,5 bei TextVQA und übertrifft damit sowohl Gemini 1.5 Pro als auch Claude 3.5 Sonnet. Es glänzt auch bei Ai2D mit einer Punktzahl von 96,3, der höchsten unter allen Modellfamilien. Besonders Molmo-72B erzielt in Aufgaben zur visuellen Verankerung Top-Noten bei RealWorldQA und ist daher ein vielversprechender Kandidat für Robotik- und komplexe multimodale Denk-Anwendungen.
Offener Zugang und zukünftige Entwicklungen
Ai2 hat diese Modelle und Datensätze frei zugänglich auf seiner Hugging Face-Seite gemacht, wodurch die Kompatibilität mit beliebten KI-Frameworks wie Transformers gewährleistet ist. Diese Initiative ist Teil von Ai2s Mission, Innovation und Zusammenarbeit innerhalb der KI-Community zu fördern. In den kommenden Monaten plant Ai2 die Veröffentlichung weiterer Modelle, Trainingscodes und eines erweiterten technischen Berichts, um die verfügbaren Ressourcen für Forscher weiter zu verbessern. Für Interessierte stehen nun öffentliche Demos und Modell-Checkpoints auf der offiziellen Molmo-Seite zur Verfügung.