Heute hat Cohere for AI (C4AI), die gemeinnützige Forschungsabteilung des kanadischen Unternehmens für KI-Startups Cohere, die offenen Gewichte von Aya 23 veröffentlicht, einer fortschrittlichen Familie multilingualer Sprachmodelle.
Aya 23 ist in zwei Varianten erhältlich: mit 8 Milliarden und 35 Milliarden Parametern. Diese Parameter stehen für die Stärke der Verbindungen zwischen künstlichen Neuronen, wobei höhere Zahlen auf ein leistungsfähigeres und fähigeres Modell hinweisen. Diese Veröffentlichung ist Teil der Aya-Initiative von C4AI, die darauf abzielt, die multilingualen Fähigkeiten zu verbessern.
C4AI hat die Gewichte von Aya 23 als Open Source bereitgestellt, sodass Drittanbieter-Forscher das Modell an ihre spezifischen Bedürfnisse anpassen können. Obgleich dies keine vollständige Open-Source-Veröffentlichung darstellt (die auch Trainingsdaten und Architekturdetails umfassen würde), bietet es dennoch erheblichen Handlungsspielraum, ähnlich wie die Llama-Modelle von Meta.
Aufbauend auf seinem Vorgänger, Aya 101, unterstützt Aya 23 23 Sprachen: Arabisch, Chinesisch (vereinfacht und traditionell), Tschechisch, Niederländisch, Englisch, Französisch, Deutsch, Griechisch, Hebräisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Persisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Spanisch, Türkisch, Ukrainisch und Vietnamesisch.
Cohere for AI behauptet, dass diese Modelle die modernsten Sprachmodellierungsfähigkeiten auf nahezu die Hälfte der Weltbevölkerung erweitern. Darüber hinaus übertrifft Aya 23 nicht nur Aya 101, sondern auch andere Open-Source-Modelle wie Googles Gemma und die Angebote von Mistral und liefert qualitativ hochwertigere Antworten in den unterstützten Sprachen.
Sprache Barrieren überwinden mit Aya
Während große Sprachmodelle (LLMs) in den letzten Jahren an Bedeutung gewonnen haben, konzentrierten sich die meisten hauptsächlich auf Englisch. Infolgedessen haben viele Modelle Schwierigkeiten mit weniger verbreiteten Sprachen.
Die Forscher von C4AI identifizierten zwei zentrale Probleme: einen Mangel an robusten multilingualen vortrainierten Modellen und ein Fehlen vielfältiger, instruktionsbasierter Trainingsdaten. Um diese Herausforderungen zu bewältigen, startete C4AI die Aya-Initiative und arbeitete mit über 3.000 unabhängigen Forschern aus 119 Ländern zusammen. Ihr erster Erfolg war die Aya Collection, ein umfangreicher multilingualer Datensatz im Instruktionsstil mit 513 Millionen Eingaben und Ausgaben, der anschließend zur Erstellung des instruktionsoptimierten LLMs für 101 Sprachen genutzt wurde.
Die Veröffentlichung von Aya 101 im Februar 2024 stellte einen bedeutenden Fortschritt in der multilingualen Sprachmodellierung dar. Allerdings basierte es auf mT5, das inzwischen veraltet ist, und sein breites Design minderte die Leistung in einzelnen Sprachen.
Mit der Einführung von Aya 23 hat Cohere for AI einen ausgewogenen Ansatz verfolgt und sich auf 23 Sprachen konzentriert, um die Leistung zu verbessern. Diese Modelle, basierend auf Cohere’s Command-Serie und der Aya Collection, steigern die Generationsqualität durch die gezielte Ressourcennutzung für weniger Sprachen.
Bewertungsergebnisse zeigen, dass Aya 23 Aya 101 und andere gängige Modelle wie Gemma und Mistral in verschiedenen diskriminativen und generativen Aufgaben übertrifft. Die Verbesserungen betragen bis zu 14% bei diskriminativen Aufgaben, 20% bei generativen Aufgaben und einen Anstieg von 41,6% bei multilingualem MMLU. Besonders hervorzuheben ist, dass Aya 23 im Vergleich zu Aya 101 eine 6,6-fache Steigerung im multikulturellen mathematischen Denken erreicht.
Jetzt verfügbar
Cohere for AI hat einen weiteren wichtigen Schritt in Richtung leistungsstarker multilingualer Modelle unternommen. Die offenen Gewichte für die 8B- und 35B-Modelle sind jetzt unter der Creative Commons Namensnennung-nicht kommerziell 4.0 internationalen Lizenz auf Hugging Face verfügbar.
„Durch die Veröffentlichung der Gewichte der Modellfamilie Aya 23 möchten wir Forscher und Praktiker in die Lage versetzen, multilinguale Modelle und Anwendungen voranzubringen“, erklärten die Forscher. Nutzer können auch kostenlos mit den neuen Modellen im Cohere Playground experimentieren.