Alibaba präsentiert Qwen2-VL: Das neue KI-Modell zur Analyse von Videos über 20 Minuten Länge.

Alibaba Cloud, die Cloud-Dienste-Sparte des chinesischen E-Commerce-Riesen, hat Qwen2-VL vorgestellt, ein neuestes Modell zur Verbindung von Vision und Sprache, das die visuelle Wahrnehmung, Videoanalyse und mehrsprachige Text-Bild-Verarbeitung optimiert.

Qwen2-VL übertrifft führende Modelle wie Meta’s Llama 3.1, OpenAI’s GPT-4o, Anthropic’s Claude 3 Haiku und Google’s Gemini-1.5 Flash, basierend auf Benchmark-Tests von Drittanbietern. Nutzer können das Modell auf Hugging Face ausprobieren.

Unterstützte Sprachen: Englisch, Chinesisch, die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch.

Fortgeschrittene Visual- und Videoanalyse

Alibaba verfolgt mit Qwen-2VL das Ziel, die Interaktion mit visuellen Daten neu zu definieren. Dieses Modell kann Handschrift in mehreren Sprachen analysieren, Objekte in Bildern identifizieren und beschreiben sowie Live-Videos nahezu in Echtzeit verarbeiten. Es eignet sich somit hervorragend für technischen Support und operative Aufgaben.

In einem Blogbeitrag auf GitHub betonte das Qwen-Forschungsteam: „Neben statischen Bildern erweitert Qwen2-VL seine Fähigkeiten auf die Analyse von Videoinhalten. Es kann Videos zusammenfassen, verwandte Fragen beantworten und Echtzeitgespräche führen, wodurch es als persönlicher Assistent für Nutzer fungieren kann, der direkt aus Videoinhalten Einblicke bietet.“

Besonders hervorzuheben ist, dass Qwen-2VL Videos mit einer Länge von über 20 Minuten analysieren und Fragen zu deren Inhalt beantworten kann.

Beispielhafte Videozusammenfassung:

In einer Demonstration fasste Qwen2-VL effektiv ein Video zusammen, in dem Astronauten über ihre Mission in der Raumstation sprachen und den Zuschauern einen faszinierenden Einblick in die Weltraumerforschung gewährten.

Modellvarianten und Open-Source-Optionen

Qwen2-VL gibt es in drei Varianten: Qwen2-VL-72B (72 Milliarden Parameter), Qwen2-VL-7B und Qwen2-VL-2B. Die Versionen 7B und 2B sind unter der Apache 2.0-Lizenz Open Source und bieten Attraktivität für Unternehmen. Diese Varianten sind für wettbewerbsfähige Leistungen in einem zugänglichen Umfang konzipiert und auf Plattformen wie Hugging Face und ModelScope verfügbar.

Das größte Modell, 72B, wird später unter einer separaten Lizenz und API von Alibaba erhältlich sein.

Funktionalität und Integration

Die Qwen2-VL-Serie baut auf der Qwen-Modellfamilie auf und bietet Fortschritte wie:

- Integration in Geräte wie Mobiltelefone und Roboter für automatisierte Abläufe basierend auf visuellen und textuellen Eingaben.

- Funktionalitäten, die die Interaktion mit Drittanbieter-Software und -Anwendungen ermöglichen und kritische Informationen wie Flugstatus und Paketverfolgung verstehen.

Diese Eigenschaften positionieren Qwen2-VL als leistungsstarkes Werkzeug für Aufgaben, die komplexes Denken und Entscheidungsfindung erfordern.

Architektonische Innovationen

Qwen2-VL integriert mehrere architektonische Fortschritte zur Verbesserung der Verarbeitung visueller Daten. Die Unterstützung für Naive Dynamic Resolution ermöglicht die Verarbeitung von Bildern unterschiedlicher Auflösungen und gewährleistet Präzision in der visuellen Interpretation. Das Multimodal Rotary Position Embedding (M-ROPE)-System ermöglicht es dem Modell, Positionsinformationen über Text, Bilder und Videos effektiv zu integrieren.

Zukünftige Entwicklungen des Qwen-Teams

Das Qwen-Team widmet sich der Weiterentwicklung von Vision-Language-Modellen durch die Integration zusätzlicher Modalitäten und die Erweiterung der Anwendungsbereiche der Modelle. Die Qwen2-VL-Modelle sind jetzt für Entwickler und Forscher verfügbar, die das Potenzial dieser fortschrittlichen Werkzeuge erkunden möchten.

Most people like

Find AI tools in YBX