Das gut finanzierte französische KI-Startup Mistral, bekannt für seine fortschrittlichen Open-Source-KI-Modelle, hat zwei neue große Sprachmodelle (LLMs) vorgestellt: ein mathematikfokussiertes Modell und ein Code-Generationsmodell für Entwickler, beide basierend auf der innovativen Mamba-Architektur, die von Forschern im letzten Jahr eingeführt wurde.
Mamba zielt darauf ab, die Effizienz traditioneller Transformer-Architekturen durch die Optimierung von Aufmerksamkeitsmechanismen zu steigern. Diese Verbesserung ermöglicht es Mamba-basierten Modellen, schnellere Inferenzzeiten zu erreichen und längere Kontexte zu unterstützen, wodurch sie sich von typischen Transformer-Modellen unterscheiden. Auch andere Unternehmen wie AI21 haben KI-Modelle mit dieser Architektur veröffentlicht.
Das neue Codestral Mamba 7B von Mistral ist darauf ausgelegt, schnelle Reaktionszeiten, selbst bei umfangreichen Eingabetexten, zu bieten, was es ideal für lokale Programmierprojekte macht. Über Mistrals la Plateforme API verfügbar, kann es Eingaben von bis zu 256.000 Tokens verarbeiten – die doppelte Kapazität von OpenAIs GPT-4.
In Benchmark-Tests übertraf Codestral Mamba mehrere konkurrierende Open-Source-Modelle, wie CodeLlama 7B, CodeGemma-1.17B und DeepSeek in den HumanEval-Bewertungen. Entwickler können Codestral Mamba über sein GitHub-Repository und HuggingFace unter einer Open-Source-Apache 2.0-Lizenz anpassen und implementieren. Mistral behauptet, dass die frühere Version von Codestral andere Code-Generatoren, darunter CodeLlama 70B und DeepSeek Coder 33B, übertroffen hat.
KI-gestützte Code-Generierung und Programmierassistenten sind unverzichtbare Anwendungen geworden, wobei Plattformen wie GitHubs Copilot, Amazons CodeWhisperer und Codenium zunehmend an Beliebtheit gewinnen.
Mistrals zweite Neuheit, Mathstral 7B, konzentriert sich auf mathematikbezogenes Denken und wissenschaftliche Entdeckungen, entwickelt in Zusammenarbeit mit Project Numina. Mit einem 32k Kontextfenster arbeitet Mathstral unter einer Apache 2.0 Open-Source-Lizenz und hat alle bestehenden Modelle für mathematische Schlussfolgerungen übertroffen. Es liefert „deutlich bessere Ergebnisse“ in Benchmarks, die umfangreiche Inferenzzeiten erfordern, und Benutzer können entscheiden, ob sie es unverändert nutzen oder spezifisch anpassen möchten.
„Mathstral verkörpert das hervorragende Leistungs-Verhältnis, das beim Bau von Modellen für spezialisierte Anwendungen erreicht werden kann – eine Philosophie, die wir in la Plateforme besonders mit den verbesserten Feinabstimmungsfähigkeiten vertreten“, teilte Mistral in einem Blogbeitrag mit.
Mathstral ist über Mistrals la Plateforme und HuggingFace zugänglich. Mistral konkurriert stetig mit Branchenführern wie OpenAI und Anthropic und hat kürzlich 640 Millionen US-Dollar in einer Series-B-Finanzierungsrunde gesichert, wodurch die Bewertung des Unternehmens auf nahezu 6 Milliarden US-Dollar gestiegen ist, mit Investitionen von Technologieriesen wie Microsoft und IBM.