Hugging Face präsentiert Idefics2: Das neue 8 Milliarden Open-Source-Visuelle Sprachmodell

Home KI-Nachrichten Hugging Face präsentiert Idefics2: Das neue 8 Milliarden Open-Source-Visuelle Sprachmodell

Hugging Face hat im Jahr 2023 sein visuelles Sprachmodell Idefics eingeführt, das auf Technologie basiert, die ursprünglich von DeepMind entwickelt wurde. Die aktualisierte Version, Idefics2, ist nun auf Hugging Face verfügbar und bietet eine reduzierte Anzahl an Parametern, eine offene Lizenz sowie verbesserte Funktionen zur optischen Zeichenerkennung (OCR).

Idefics, was für "Bildbewusster Decoder Enhanced à la Flamingo mit ineinander geschachtelten Kreuzaufmerksamkeiten" steht, ist ein vielseitiges multimodales Modell, das sowohl Text- als auch Bildanfragen verarbeiten kann. Während das ursprüngliche Idefics 80 Milliarden Parameter hatte, wurde Idefics2 auf nur 8 Milliarden optimiert, was es vergleichbar mit Modellen wie DeepSeek-VL und LLaVA-NeXT-Mistral-7B macht.

Zu den wichtigsten Verbesserungen in Idefics2 gehören fortschrittliche Bildmanipulationsfunktionen, die native Auflösungen von bis zu 980 x 980 Pixeln unterstützen, ohne sie auf ein festes Quadratformat anpassen zu müssen – ein häufiges Problem in der traditionellen Computer Vision.

Die OCR-Fähigkeiten des Modells wurden ebenfalls verbessert, indem Daten aus der Transkription von Text in Bildern und Dokumenten integriert wurden. Das Team von Hugging Face hat die Fähigkeit von Idefics2 verbessert, Fragen zu Diagrammen, Abbildungen und Dokumenten zu beantworten.

Darüber hinaus wurde die Architektur von Idefics2 vereinfacht, indem die in der Vorgängerversion verwendeten gated cross-attention Mechanismen aufgegeben wurden. Laut Hugging Face: „Die Bilder werden in den Visionsencoder eingespeist, gefolgt von gelerntem Perceiver-Pooling und einer Multilayer-Perceptron-Modulprojektion. Diese gepoolte Sequenz wird mit den Texteingaben verknüpft, um eine ineinander geschachtelte Sequenz aus Bildern und Text zu erstellen.“

Zur Schulung von Idefics2 setzte Hugging Face eine Kombination aus öffentlich verfügbaren Datensätzen ein, einschließlich Mistral-7B-v0.1 und siglip-so400m-patch14-384. Weitere Trainingsdaten umfassten Webdokumente, Bild-Beschreibung-Paare, OCR-Daten und Bild-zu-Code-Ressourcen.

Die Veröffentlichung von Idefics2 fällt inmitten eines Anstiegs multimodaler Modelle in der KI-Landschaft, darunter Rekas Core-Modell, xAIs Grok-1.5V und Googles Imagen 2.

Wie MongoDBs Kooperationen mit KI-Startups und Cloud-Giganten wie AWS, Google und Microsoft die Innovation im Bereich der generativen KI für Entwickler vorantreiben.

Telesign's Verify API nutzt KI und ML für verbesserte Sicherheit und Omnichannel-Wachstum.

Most people like

Opinion Stage

391.6K

Steigern Sie Ihre Lead-Generierungsstrategie mit interaktiven Quizfragen. Diese ansprechenden Werkzeuge ziehen nicht nur die Aufmerksamkeit auf sich, sondern sammeln auch wertvolle Einblicke über Ihr Publikum. Erfahren Sie, wie die Einbindung von Quizfragen in Ihre Marketingaktivitäten die Nutzerbindung erhöhen und Interessenten in treue Kunden verwandeln kann.

Quiz-Ersteller Other

Pionex

3.3M

Entdecken Sie den besten Krypto-Handelsbot, der Sicherheit, Leistung und volle Automatisierung vereint. Steigern Sie Ihre Handels-Effizienz und minimieren Sie Risiken mit unserer Top-Empfehlung für den Kryptowährungshandel.

Krypto-Handel AI Trading Bot Assistant

Insight7

103.7K

Willkommen bei Insight7, der innovativen KI-Plattform zur Automatisierung der Kundenanalyse. Durch die Optimierung dieses Prozesses spart Insight7 nicht nur wertvolle Zeit, sondern deckt auch verborgene Wachstumschancen auf. Erfahren Sie, wie Insight7 Ihren Umgang mit Datenanalysen revolutionieren und Ihre Entscheidungsfindung verbessern kann.

KI-gestützte Kundenanalysen AI Product Description Generator

ThumbnailsPro

Steigern Sie das Engagement Ihrer YouTube-Videos mit einem KI-Thumbnail-Generator, der speziell für Creator entwickelt wurde. Verwandeln Sie auffällige Grafiken in leistungsstarke Werkzeuge, die Zuschauer anziehen und die Klickrate erhöhen.

YouTube-Thumbnails AI Photo & Image Generator

Find AI tools in YBX