Elon Musks xAI präsentiert Grok-1.5V: Das erste multimodale KI-Modell

Elon Musks xAI hat sein erstes multimodales Modell, Grok-1.5 Vision (Grok-1.5V), lanciert. Dieses Modell kann nicht nur Text, sondern auch verschiedene visuelle Daten verstehen, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotografien. Grok-1.5V wird bald für frühe Tester und aktuelle Grok-Nutzer verfügbar sein.

In einem Blogbeitrag des Unternehmens heißt es: „Grok-1.5V konkurriert mit führenden multimodalen Modellen in verschiedenen Bereichen, wie interdisziplinärem Denken und visueller Wissenschaftsverständnis von Diagrammen, Dokumenten, Screenshots und Bildern.“

Die Ankündigung folgt der kürzlichen Vorstellung des aktualisierten Chatbot-Modells, Grok-1.5. xAI präsentierte sieben Beispiele, die die Fähigkeiten von Grok-1.5V veranschaulichen. Dazu gehören die Umwandlung eines Flussdiagramms auf einem Whiteboard in Python-Code, das Generieren einer Gutenachtgeschichte aus einer Kinderzeichnung, das Erklären von Memes, die Umwandlung von Tabellen in CSV-Dateien und die Einschätzung, ob Holzdecks wegen Fäulnis ersetzt werden müssen.

xAI behauptet, dass Grok-1.5V in verschiedenen Tests die Konkurrenzmodelle wie GPT-4V, Claude 3 Sonnet, Claude 3 Opus und Gemini Pro 1.5 übertroffen hat. Das Unternehmen hebt die überlegene Leistung von Grok-1.5V im RealWorldQA-Benchmark hervor, einem neuen Maßstab zur Beurteilung des räumlichen Verständnisses in der realen Welt.

RealWorldQA wurde mit über 700 Bildern trainiert, die jeweils mit spezifischen Fragen und Antworten versehen sind. Der Datensatz umfasst eine Vielzahl anonymisierter Bilder, einschließlich solcher, die aus Fahrzeugen aufgenommen wurden. xAI plant, RealWorldQA unter einer Creative-Commons-Lizenz der Öffentlichkeit zugänglich zu machen.

Während xAI weiterhin Fortschritte macht, zielt das Unternehmen darauf ab, mit OpenAI und anderen Branchenführern zu konkurrieren, nachdem es im November 2023 seinen Chatbot eingeführt hat. Die Veröffentlichung von Grok-1.5V erfolgt kurz nach der Open-Source-Freigabe von Grok AI. Das Unternehmen sieht sich jedoch auch Kontroversen gegenüber, darunter Vorwürfe, dass der Grok-Chatbot Anleitung zu illegalen Aktivitäten gegeben habe.

Trotz dieser Herausforderungen bleibt xAI entschlossen, eine „nützliche künstliche allgemeine Intelligenz“ zu entwickeln, die das Universum verstehen kann. Das Unternehmen hat angekündigt, in den kommenden Monaten bedeutende Updates für die multimodale Verständnis- und Generierungsfähigkeit von Grok AI einzuführen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles