Mistral AI feiert mit der Einführung von Pixtral 12B, dem ersten Modell dieses französischen KI-Startups, das Sprach- und Bildverarbeitung kombiniert, seinen Einstieg in den multimodalen Bereich. Diese Entwicklung positioniert Mistral als ernsthaften Wettbewerber für große Player wie OpenAI und Anthropic.
Aktuell ist Pixtral 12B nicht im öffentlichen Internet verfügbar, aber Entwickler können den Quellcode von Hugging Face oder GitHub herunterladen, um individuelle Tests durchzuführen. Anders als bei typischen KI-Veröffentlichungen stellte Mistral zunächst einen Torrent-Link zur Verfügung, damit Nutzer die Modell-Dateien herunterladen können.
Sophia Yang, Leiterin der Entwicklerbeziehungen, kündigte in einem Post auf X an, dass das Modell bald über Mistrals Web-Chatbot zugänglich sein wird, wodurch Entwickler dessen Funktionen ausprobieren können. Zudem wird es in Mistrals La Platforme integriert, die API-Endpunkte bieten wird, um auf die Modelle des Unternehmens zuzugreifen.
Was bietet Pixtral 12B?
Obwohl Einzelheiten zu den Trainingsdaten noch nicht offengelegt wurden, zielt Pixtral 12B darauf ab, die Bildanalyse in Verbindung mit Texteingaben zu erleichtern. Nutzer können Bilder hochladen oder Links bereitstellen und Fragen zum Inhalt stellen.
Obwohl dies Mistrals erstes multimodales Modell ist, haben Wettbewerber wie OpenAI und Anthropic bereits ähnliche Funktionen. Auf die Frage nach den besonderen Eigenschaften von Pixtral betonte Yang, dass es nativ eine beliebige Anzahl von Bildern in verschiedenen Größen verarbeiten kann.
Erste Tester auf X haben festgestellt, dass das 24-GB-Modell über eine robuste Architektur verfügt, die 40 Schichten, 14.336 verborgene Dimensionen und 32 Aufmerksamkeitsköpfe für verbesserte Berechnungsverarbeitung umfasst. Der spezialisierte Vision-Encoder unterstützt Bilder mit einer Auflösung von bis zu 1024x1024 und weist 24 verborgene Schichten für fortgeschrittene Bildanalysen auf.
Während Mistral sich auf die Bereitstellung des Modells über API vorbereitet, wird das Potenzial für visuelle Anwendungen wie Inhalts- und Datenanalyse klarer. Die genaue Leistungsfähigkeit dieses offenen Modells steht noch aus, doch es verkörpert Mistrals ehrgeizige Ausrichtung im KI-Bereich.
Seit seiner Gründung im letzten Jahr hat Mistral schnell eine Pipeline von Modellen entwickelt, um gegen Branchengrößen wie OpenAI anzutreten. Zudem wurden strategische Partnerschaften mit großen Unternehmen wie Microsoft, AWS und Snowflake geschlossen, um die Reichweite seiner Technologien zu erweitern. Vor kurzem hat Mistral 640 Millionen Dollar bei einer Bewertung von 6 Milliarden Dollar gesammelt und Mistral Large 2 vorgestellt, ein Modell auf GPT-4-Niveau mit fortschrittlichen mehrsprachigen Fähigkeiten sowie verbesserter Leistungsfähigkeit in den Bereichen Logik, Codegenerierung und Mathematik.
Darüber hinaus hat das Unternehmen Mixtral, ein Modell mit Mischexperten, und Codestral, ein offenes Codierungsmodell mit 22 Milliarden Parametern, sowie ein Modell für mathematisches Denken und wissenschaftliche Entdeckungen eingeführt.