Hugging Face präsentiert Idefics2: Das neue 8 Milliarden Open-Source-Visuelle Sprachmodell

Home KI-Nachrichten Hugging Face präsentiert Idefics2: Das neue 8 Milliarden Open-Source-Visuelle Sprachmodell

Hugging Face hat im Jahr 2023 sein visuelles Sprachmodell Idefics eingeführt, das auf Technologie basiert, die ursprünglich von DeepMind entwickelt wurde. Die aktualisierte Version, Idefics2, ist nun auf Hugging Face verfügbar und bietet eine reduzierte Anzahl an Parametern, eine offene Lizenz sowie verbesserte Funktionen zur optischen Zeichenerkennung (OCR).

Idefics, was für "Bildbewusster Decoder Enhanced à la Flamingo mit ineinander geschachtelten Kreuzaufmerksamkeiten" steht, ist ein vielseitiges multimodales Modell, das sowohl Text- als auch Bildanfragen verarbeiten kann. Während das ursprüngliche Idefics 80 Milliarden Parameter hatte, wurde Idefics2 auf nur 8 Milliarden optimiert, was es vergleichbar mit Modellen wie DeepSeek-VL und LLaVA-NeXT-Mistral-7B macht.

Zu den wichtigsten Verbesserungen in Idefics2 gehören fortschrittliche Bildmanipulationsfunktionen, die native Auflösungen von bis zu 980 x 980 Pixeln unterstützen, ohne sie auf ein festes Quadratformat anpassen zu müssen – ein häufiges Problem in der traditionellen Computer Vision.

Die OCR-Fähigkeiten des Modells wurden ebenfalls verbessert, indem Daten aus der Transkription von Text in Bildern und Dokumenten integriert wurden. Das Team von Hugging Face hat die Fähigkeit von Idefics2 verbessert, Fragen zu Diagrammen, Abbildungen und Dokumenten zu beantworten.

Darüber hinaus wurde die Architektur von Idefics2 vereinfacht, indem die in der Vorgängerversion verwendeten gated cross-attention Mechanismen aufgegeben wurden. Laut Hugging Face: „Die Bilder werden in den Visionsencoder eingespeist, gefolgt von gelerntem Perceiver-Pooling und einer Multilayer-Perceptron-Modulprojektion. Diese gepoolte Sequenz wird mit den Texteingaben verknüpft, um eine ineinander geschachtelte Sequenz aus Bildern und Text zu erstellen.“

Zur Schulung von Idefics2 setzte Hugging Face eine Kombination aus öffentlich verfügbaren Datensätzen ein, einschließlich Mistral-7B-v0.1 und siglip-so400m-patch14-384. Weitere Trainingsdaten umfassten Webdokumente, Bild-Beschreibung-Paare, OCR-Daten und Bild-zu-Code-Ressourcen.

Die Veröffentlichung von Idefics2 fällt inmitten eines Anstiegs multimodaler Modelle in der KI-Landschaft, darunter Rekas Core-Modell, xAIs Grok-1.5V und Googles Imagen 2.

Wie MongoDBs Kooperationen mit KI-Startups und Cloud-Giganten wie AWS, Google und Microsoft die Innovation im Bereich der generativen KI für Entwickler vorantreiben.

Telesign's Verify API nutzt KI und ML für verbesserte Sicherheit und Omnichannel-Wachstum.

Most people like

CodeDesign.ai

85.4K

Präsentieren Sie CodeDesign.ai, einen innovativen KI-Webseiten-Builder, der es Ihnen ermöglicht, mühelos ansprechende und funktionale Webseiten zu erstellen. Egal, ob Sie Anfänger oder erfahrener Entwickler sind, unsere Plattform optimiert den Prozess der Webseiten-Erstellung und lässt Ihnen mehr Zeit für das, was wirklich zählt – Ihren Inhalt. Steigern Sie Ihre Online-Präsenz noch heute mit CodeDesign.ai!

KI-Website-Builder AI Website Builder

Beauty.AI

15.2K

In einer innovativen Wendung traditioneller Schönheitswettbewerbe wird nun ein KI-Schönheitswettbewerb von Robotern bewertet. Dieses bahnbrechende Ereignis verbindet Technologie und Ästhetik und hinterfragt unsere Auffassungen von Schönheit im digitalen Raum. Durch den Einsatz fortschrittlicher Algorithmen und künstlicher Intelligenz erweitert der Wettbewerb die Grenzen der Kreativität und untersucht, was Schönheit in einer zunehmend von Automatisierung und maschinellem Lernen beeinflussten Welt bedeutet.

Künstliche Intelligenz Other

Midjourney Art AI

310.6K

Entfesseln Sie Ihr kreatives Potenzial mit einem KI-Kunstgenerator, der Ihre Texteingaben in atemberaubende visuelle Kunst verwandelt. Nutzen Sie die Kraft fortschrittlicher künstlicher Intelligenz, um mühelos Ihre Ideen zum Leben zu erwecken, egal ob Sie Illustrationen für ein Projekt erstellen, einzigartige Kunstwerke entwerfen oder einfach Ihrer Fantasie freien Lauf lassen. Erleben Sie die nahtlose Verbindung von Technologie und Kreativität, während dieses innovative Werkzeug Ihre geschriebenen Worte in fesselnde Kunstwerke verwandelt und Kunst für jeden zugänglich macht. Beginnen Sie noch heute Ihre künstlerische Reise mit unserem intuitiven KI-Kunstgenerator!

KI-Kunstgenerator AI Art Generator

Video Analytics powered by AI - Ipsotek Ltd

35.6K

Wir stellen einen führenden Anbieter von KI-gestützten Videoanalyse-Lösungen vor, der sich der Transformation visueller Daten in umsetzbare Erkenntnisse widmet. Unsere innovative Technologie nutzt fortschrittliche Algorithmen, um die Sicherheit zu erhöhen, Abläufe zu optimieren und fundierte Entscheidungen zu fördern. Begleiten Sie uns dabei, wie Unternehmen Video-Daten neu nutzen, um Effizienz und Sicherheit in der heutigen schnelllebigen Umgebung zu verbessern.

KI-gestützte Videoanalyse Other

Find AI tools in YBX