Alibaba präsentiert Qwen2-VL: Das neue KI-Modell zur Analyse von Videos über 20 Minuten Länge.

Home KI-Nachrichten Alibaba präsentiert Qwen2-VL: Das neue KI-Modell zur Analyse von Videos über 20 Minuten Länge.

Alibaba Cloud, die Cloud-Dienste-Sparte des chinesischen E-Commerce-Riesen, hat Qwen2-VL vorgestellt, ein neuestes Modell zur Verbindung von Vision und Sprache, das die visuelle Wahrnehmung, Videoanalyse und mehrsprachige Text-Bild-Verarbeitung optimiert.

Qwen2-VL übertrifft führende Modelle wie Meta’s Llama 3.1, OpenAI’s GPT-4o, Anthropic’s Claude 3 Haiku und Google’s Gemini-1.5 Flash, basierend auf Benchmark-Tests von Drittanbietern. Nutzer können das Modell auf Hugging Face ausprobieren.

Unterstützte Sprachen: Englisch, Chinesisch, die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch.

Fortgeschrittene Visual- und Videoanalyse

Alibaba verfolgt mit Qwen-2VL das Ziel, die Interaktion mit visuellen Daten neu zu definieren. Dieses Modell kann Handschrift in mehreren Sprachen analysieren, Objekte in Bildern identifizieren und beschreiben sowie Live-Videos nahezu in Echtzeit verarbeiten. Es eignet sich somit hervorragend für technischen Support und operative Aufgaben.

In einem Blogbeitrag auf GitHub betonte das Qwen-Forschungsteam: „Neben statischen Bildern erweitert Qwen2-VL seine Fähigkeiten auf die Analyse von Videoinhalten. Es kann Videos zusammenfassen, verwandte Fragen beantworten und Echtzeitgespräche führen, wodurch es als persönlicher Assistent für Nutzer fungieren kann, der direkt aus Videoinhalten Einblicke bietet.“

Besonders hervorzuheben ist, dass Qwen-2VL Videos mit einer Länge von über 20 Minuten analysieren und Fragen zu deren Inhalt beantworten kann.

Beispielhafte Videozusammenfassung:

In einer Demonstration fasste Qwen2-VL effektiv ein Video zusammen, in dem Astronauten über ihre Mission in der Raumstation sprachen und den Zuschauern einen faszinierenden Einblick in die Weltraumerforschung gewährten.

Modellvarianten und Open-Source-Optionen

Qwen2-VL gibt es in drei Varianten: Qwen2-VL-72B (72 Milliarden Parameter), Qwen2-VL-7B und Qwen2-VL-2B. Die Versionen 7B und 2B sind unter der Apache 2.0-Lizenz Open Source und bieten Attraktivität für Unternehmen. Diese Varianten sind für wettbewerbsfähige Leistungen in einem zugänglichen Umfang konzipiert und auf Plattformen wie Hugging Face und ModelScope verfügbar.

Das größte Modell, 72B, wird später unter einer separaten Lizenz und API von Alibaba erhältlich sein.

Funktionalität und Integration

Die Qwen2-VL-Serie baut auf der Qwen-Modellfamilie auf und bietet Fortschritte wie:

- Integration in Geräte wie Mobiltelefone und Roboter für automatisierte Abläufe basierend auf visuellen und textuellen Eingaben.

- Funktionalitäten, die die Interaktion mit Drittanbieter-Software und -Anwendungen ermöglichen und kritische Informationen wie Flugstatus und Paketverfolgung verstehen.

Diese Eigenschaften positionieren Qwen2-VL als leistungsstarkes Werkzeug für Aufgaben, die komplexes Denken und Entscheidungsfindung erfordern.

Architektonische Innovationen

Qwen2-VL integriert mehrere architektonische Fortschritte zur Verbesserung der Verarbeitung visueller Daten. Die Unterstützung für Naive Dynamic Resolution ermöglicht die Verarbeitung von Bildern unterschiedlicher Auflösungen und gewährleistet Präzision in der visuellen Interpretation. Das Multimodal Rotary Position Embedding (M-ROPE)-System ermöglicht es dem Modell, Positionsinformationen über Text, Bilder und Videos effektiv zu integrieren.

Zukünftige Entwicklungen des Qwen-Teams

Das Qwen-Team widmet sich der Weiterentwicklung von Vision-Language-Modellen durch die Integration zusätzlicher Modalitäten und die Erweiterung der Anwendungsbereiche der Modelle. Die Qwen2-VL-Modelle sind jetzt für Entwickler und Forscher verfügbar, die das Potenzial dieser fortschrittlichen Werkzeuge erkunden möchten.

Cohere verbessert Command R: Wichtige Gründe, warum Unternehmen aufmerksam sein sollten.

Der Unermüdliche Teamkollege: Wie Agentic AI die Softwareentwicklungsteams revolutioniert

Most people like

CartoonGen

16.2K

Entfesseln Sie die Magie der KI-Animationsgeneration mit unseren innovativen Tools, die Text oder Bilder in atemberaubende Pixar-ähnliche Animationen verwandeln. Diese aufregende Technologie ermöglicht es Ihnen, lebendige, fesselnde Charaktere und Szenen zu erschaffen, die den verspielten Charme von Pixar-Filmen widerspiegeln und Ihre Ideen auf eine nie dagewesene Weise zum Leben erwecken. Egal, ob Sie ein kreativer Kopf auf der Suche nach Inspiration sind oder einfach nur Spaß haben möchten, tauchen Sie noch heute in die Welt der Pixar-ähnlichen KI-Cartoons ein!

KI-Cartoon-Generator AI Photo & Image Generator

Mumble

6.1K

Bauen Sie nachhaltige Beziehungen zu Ihren Kunden auf.

Kundenbeziehung AI Customer Service Assistant

Sketch Logo AI

84.2K

Erstellen Sie atemberaubende Logos, fesselnde Illustrationen und einzigartige Tattoos in nur wenigen Sekunden.

Logo-Design AI Illustration Generator

ContentBot - AI Content Automation and Workflows

88K

ContentBot ist ein hochmodernes KI-Tool, das entwickelt wurde, um die Inhaltserstellung für Vermarkter zu revolutionieren, indem es den gesamten Prozess automatisiert und optimiert. Diese innovative Lösung unterstützt Fachleute dabei, Zeit zu sparen und ihre Produktivität zu steigern, während sie effizient hochwertige, ansprechende Inhalte erstellen.

KI-Inhaltautomatisierung AI Content Generator

Find AI tools in YBX