Hugging Face präsentiert Idefics2: Das neue 8 Milliarden Open-Source-Visuelle Sprachmodell

Hugging Face hat im Jahr 2023 sein visuelles Sprachmodell Idefics eingeführt, das auf Technologie basiert, die ursprünglich von DeepMind entwickelt wurde. Die aktualisierte Version, Idefics2, ist nun auf Hugging Face verfügbar und bietet eine reduzierte Anzahl an Parametern, eine offene Lizenz sowie verbesserte Funktionen zur optischen Zeichenerkennung (OCR).

Idefics, was für "Bildbewusster Decoder Enhanced à la Flamingo mit ineinander geschachtelten Kreuzaufmerksamkeiten" steht, ist ein vielseitiges multimodales Modell, das sowohl Text- als auch Bildanfragen verarbeiten kann. Während das ursprüngliche Idefics 80 Milliarden Parameter hatte, wurde Idefics2 auf nur 8 Milliarden optimiert, was es vergleichbar mit Modellen wie DeepSeek-VL und LLaVA-NeXT-Mistral-7B macht.

Zu den wichtigsten Verbesserungen in Idefics2 gehören fortschrittliche Bildmanipulationsfunktionen, die native Auflösungen von bis zu 980 x 980 Pixeln unterstützen, ohne sie auf ein festes Quadratformat anpassen zu müssen – ein häufiges Problem in der traditionellen Computer Vision.

Die OCR-Fähigkeiten des Modells wurden ebenfalls verbessert, indem Daten aus der Transkription von Text in Bildern und Dokumenten integriert wurden. Das Team von Hugging Face hat die Fähigkeit von Idefics2 verbessert, Fragen zu Diagrammen, Abbildungen und Dokumenten zu beantworten.

Darüber hinaus wurde die Architektur von Idefics2 vereinfacht, indem die in der Vorgängerversion verwendeten gated cross-attention Mechanismen aufgegeben wurden. Laut Hugging Face: „Die Bilder werden in den Visionsencoder eingespeist, gefolgt von gelerntem Perceiver-Pooling und einer Multilayer-Perceptron-Modulprojektion. Diese gepoolte Sequenz wird mit den Texteingaben verknüpft, um eine ineinander geschachtelte Sequenz aus Bildern und Text zu erstellen.“

Zur Schulung von Idefics2 setzte Hugging Face eine Kombination aus öffentlich verfügbaren Datensätzen ein, einschließlich Mistral-7B-v0.1 und siglip-so400m-patch14-384. Weitere Trainingsdaten umfassten Webdokumente, Bild-Beschreibung-Paare, OCR-Daten und Bild-zu-Code-Ressourcen.

Die Veröffentlichung von Idefics2 fällt inmitten eines Anstiegs multimodaler Modelle in der KI-Landschaft, darunter Rekas Core-Modell, xAIs Grok-1.5V und Googles Imagen 2.

Most people like

Find AI tools in YBX