Nous Research, eine private angewandte Forschungsgruppe, die für ihre Beiträge im Bereich der großen Sprachmodelle (LLM) anerkannt ist, hat ein neues Vision-Language-Modell namens Nous Hermes 2 Vision eingeführt, das auf Hugging Face verfügbar ist. Dieses Open-Source-Modell baut auf dem vorherigen OpenHermes-2.5-Mistral-7B auf und erweitert dessen Möglichkeiten, indem es Benutzern ermöglicht, Bilder einzugeben und Textinformationen aus visuellen Inhalten zu extrahieren. Kurz nach dem Start berichteten Nutzer jedoch über übermäßige Halluzinationen, was das Unternehmen veranlasste, das Projekt in Hermes 2 Vision Alpha umzubenennen. Eine stabilere Version mit weniger Fehlern wird in Kürze erwartet.
Nous Hermes 2 Vision Alpha
Benannt nach dem griechischen Götterboten Hermes, wurde dieses Vision-Modell entwickelt, um die Komplexitäten menschlicher Kommunikation mit bemerkenswerter Präzision zu bewältigen. Es integriert die visuellen Daten der Nutzer mit seinem erlernten Wissen, was es ihm ermöglicht, detaillierte, eine natürliche Sprache verwendende Antworten zu liefern. Zum Beispiel teilte der Mitbegründer von Nous, bekannt als Teknium auf X, einen Screenshot, der die Fähigkeit des Modells veranschaulicht, ein Bild eines Burgers zu analysieren und dessen gesundheitliche Auswirkungen zu bewerten.
Besondere Merkmale von Nous Hermes 2 Vision
Während ChatGPT, das auf GPT-4V basiert, ebenfalls Bildanfragen unterstützt, hebt sich Nous Hermes 2 Vision durch zwei Hauptmerkmale ab:
1. Leichte Architektur: Anstelle traditioneller 3B-Visionskodierer verwendet Nous Hermes 2 Vision SigLIP-400M. Dies vereinfacht nicht nur die Architektur des Modells und macht es leichter, sondern verbessert auch die Leistung bei vision-language Aufgaben.
2. Funktionsaufruf-Fähigkeit: Das Modell wurde auf einem maßgeschneiderten Datensatz mit Funktionsaufrufen trainiert. Nutzer können eine...