Ai2s Molmo Open-Source-AI-Modelle übertreffen GPT-4o und Claude in wichtigen Benchmarks.

Home KI-Nachrichten Ai2s Molmo Open-Source-AI-Modelle übertreffen GPT-4o und Claude in wichtigen Benchmarks.

Updated on September 25 2024

Das Allen Institute for AI (Ai2) hat offiziell Molmo vorgestellt, eine Open-Source-Suite hochentwickelter multimodaler KI-Modelle, die in mehreren unabhängigen Benchmarks führende proprietäre Wettbewerber wie OpenAI’s GPT-4o, Anthropic’s Claude 3.5 Sonnet und Google’s Gemini 1.5 übertreffen.

Als multimodale Modelle können Molmo Bilder und Dateien analysieren, ähnlich wie führende proprietäre Basis-Möglichkeiten. Bemerkenswert ist, dass Ai2 behauptet, Molmo nutze „1000x weniger Daten“ als seine proprietären Pendants, dank innovativer Trainingsmethoden, die in einem neu veröffentlichten technischen Bericht des von Paul Allen gegründeten Unternehmens unter der Leitung von Ali Farhadi detailliert beschrieben sind.

Ai2 hat auch ein Demovideo auf YouTube veröffentlicht, das zeigt, wie Molmo auf Smartphones funktioniert, um Live-Szenen effizient zu analysieren. Nutzer können einfach ein Foto aufnehmen, das sofort verarbeitet wird – Beispiele sind das Zählen von Personen, die Identifizierung veganer Menüartikel, die Interpretation von Flyern, die Unterscheidung elektronischer Musikgruppen und die Umwandlung handschriftlicher Notizen von Whiteboards in strukturierte Tabellen.

Diese Veröffentlichung spiegelt Ai2s Engagement wider, offene Forschung zu fördern, indem leistungsstarke Modelle mit zugänglichem Gewicht und Daten der breiten Gemeinschaft und Unternehmen zur Verfügung gestellt werden, die an anpassbaren Lösungen interessiert sind. Molmo folgt der kürzlichen Einführung von OLMoE, einem kosteneffizienten Modell, das eine „Mixture of Experts“-Architektur nutzt.

Modelle und Leistung

Molmo besteht aus vier Hauptmodellen mit unterschiedlichen Parametergrößen und Fähigkeiten:

- Molmo-72B: Das Flaggschiffmodell mit 72 Milliarden Parametern, basierend auf Alibaba Clouds Qwen2-72B.

- Molmo-7B-D: Ein Demomodell, das von Alibabas Qwen2-7B abgeleitet ist.

- Molmo-7B-O: Basierend auf Ai2s OLMo-7B.

- MolmoE-1B: Ein auf Effizienz fokussiertes Modell, das in akademischen Benchmarks und bei Nutzerpräferenzen nahezu die Leistung von GPT-4V erreicht.

Diese Modelle zeigen beeindruckende Fähigkeiten in verschiedenen unabhängigen Benchmarks und übertreffen kontinuierlich viele proprietäre Alternativen. Alle Modelle sind unter der permissiven Apache 2.0-Lizenz verfügbar, was umfangreiche Forschung und kommerzielle Nutzung ermöglicht. Molmo-72B hebt sich in akademischen Bewertungen hervor, da es in 11 wichtigen Benchmarks die höchsten Punktzahlen erzielt und bei der Nutzerpräferenz den zweiten Platz, direkt hinter GPT-4o, einnimmt.

Der KI-Entwickler Vaibhav Srivastav von Hugging Face betonte, dass Molmo eine robuste Alternative zu geschlossenen Systemen schafft und den Standard für offene multimodale KI erhöht. Außerdem lobte der Robotik-Forscher Ted Xiao von Google DeepMind die Integration von Pointing-Daten in Molmo, eine entscheidende Verbesserung für die visuelle Verankerung in der Robotik, die die Interaktion mit physischen Umgebungen verbessert.

Fortschrittliche Architektur und Training

Die Architektur von Molmo ist für optimale Effizienz und Leistung konzipiert. Jedes Modell verwendet OpenAIs ViT-L/14 336px CLIP-Modell als Vision-Encoder, das Multiskalenbilder in Vision-Tokens umwandelt. Diese Tokens werden durch einen Mehrschicht-Perzeptron (MLP) Connector verarbeitet, bevor sie in das Sprachmodell integriert werden.

Das Trainingsprotokoll umfasst zwei wesentliche Phasen:

- Multimodales Pre-Training: Die Modelle werden trainiert, um Beschreibungen von Bildern zu generieren, die von menschlichen Gutachtern bereitgestellt werden, unter Verwendung eines hochwertigen Datensatzes namens PixMo.

- Überwachtes Fine-Tuning: Die Modelle werden auf einem vielfältigen Datensatz feinjustiert, der akademische Benchmarks und neu entwickelte Datensätze umfasst und sie auf komplexe Aufgaben wie Dokumentenlesen und visuelles Denken vorbereitet.

Im Gegensatz zu vielen zeitgenössischen Modellen verlässt sich Molmo nicht auf Reinforcement Learning mit menschlichem Feedback (RLHF), sondern nutzt eine präzise abgestimmte Trainingspipeline, die alle Parameter basierend auf den Pre-Training-Zuständen aktualisiert.

Benchmark-Leistung

Die Molmo-Modelle zeigen herausragende Ergebnisse in verschiedenen Benchmarks und übertreffen dabei bemerkenswert proprietäre Modelle. Zum Beispiel erzielt Molmo-72B 96,3 bei DocVQA und 85,5 bei TextVQA und übertrifft damit sowohl Gemini 1.5 Pro als auch Claude 3.5 Sonnet. Es glänzt auch bei Ai2D mit einer Punktzahl von 96,3, der höchsten unter allen Modellfamilien. Besonders Molmo-72B erzielt in Aufgaben zur visuellen Verankerung Top-Noten bei RealWorldQA und ist daher ein vielversprechender Kandidat für Robotik- und komplexe multimodale Denk-Anwendungen.

Offener Zugang und zukünftige Entwicklungen

Ai2 hat diese Modelle und Datensätze frei zugänglich auf seiner Hugging Face-Seite gemacht, wodurch die Kompatibilität mit beliebten KI-Frameworks wie Transformers gewährleistet ist. Diese Initiative ist Teil von Ai2s Mission, Innovation und Zusammenarbeit innerhalb der KI-Community zu fördern. In den kommenden Monaten plant Ai2 die Veröffentlichung weiterer Modelle, Trainingscodes und eines erweiterten technischen Berichts, um die verfügbaren Ressourcen für Forscher weiter zu verbessern. Für Interessierte stehen nun öffentliche Demos und Modell-Checkpoints auf der offiziellen Molmo-Seite zur Verfügung.

Gaxos stellt Gaxos Labs vor: KI-Entwicklungstools für Spieleentwickler

Führungswechsel bei OpenAI: CTO Mira Murati verlässt das Unternehmen

Most people like

Briefy

69.3K

Präsentation eines KI-gestützten Tools, das mühelos prägnante Inhaltszusammenfassungen erstellt. Diese innovative Lösung nutzt fortschrittliche Algorithmen, um Informationen zu verdichten und es den Nutzern zu erleichtern, wichtige Punkte schnell zu erfassen. Egal, ob Sie Student, Profi oder Inhaltsersteller sind, dieses Tool steigert Ihre Produktivität, indem es Ihren Leseprozess optimiert. Verändern Sie die Art und Weise, wie Sie Informationen konsumieren, mit unserer modernen KI-Technologie!

KI AI Content Generator

VMock Dashboard

754.1K

Optimieren Sie Ihre Bewerbung mit unserer Verbesserungsplattform In der heutigen wettbewerbsintensiven Arbeitswelt ist es entscheidend, sich abzuheben. Unsere innovative Plattform zur Verbesserung von Bewerbungen hilft Ihnen, Ihre einzigartigen Fähigkeiten, Erfahrungen und Qualifikationen effektiv zu präsentieren. Mit maßgeschneiderten Ressourcen und fachkundiger Unterstützung befähigen wir Sie, eine überzeugende Bewerbung zu erstellen, die die Aufmerksamkeit von Personalverantwortlichen auf sich zieht. Verbessern Sie Ihre Jobsuche und erschließen Sie neue Karrieremöglichkeiten mit unseren benutzerfreundlichen Tools noch heute!

Lebenslaufoptimierung Resume Builder

Noctie.ai

52.6K

Sofortige Schachkompetenz, wo immer Sie sind.

Schachlehrer Game

Formulas HQ

77K

Entfalten Sie die Kraft präziser, KI-gestützter Formeln für Excel und Google Sheets. Nutzen Sie fortschrittliche Algorithmen, um Ihre Datenanalyse zu optimieren, Berechnungen zu vereinfachen und die Produktivität bei Ihren Tabellenkalkulationsaufgaben zu steigern.

Excel-Formeln AI Charting

Find AI tools in YBX