Cohere for AI stellt Open Source LLM vor, das 101 Sprachen unterstützt: Stärkung der globalen KI-Kommunikation

Heute stellte Cohere for AI, das 2022 gegründete non-profit Forschungsinstitut von Cohere, Aya vor – ein Open-Source-LLM (großes Sprachmodell), das 101 Sprachen unterstützt und somit mehr als doppelt so viele wie bestehende Open-Source-Modelle bietet.

Zur Veröffentlichung gehört auch das Aya-Datenset, das menschliche Annotationen enthält, die für das Training von Modellen in weniger verbreiteten Sprachen entscheidend sind. Die Forscher von Cohere for AI haben zudem Methoden entwickelt, um die Modellleistung mit begrenzten Trainingsdaten zu verbessern.

Das Aya-Projekt, das im Januar 2023 gestartet wurde, war eine bedeutende Initiative, an der über 3.000 Mitwirkende aus 119 Ländern beteiligt waren. Sara Hooker, VP of Research bei Cohere und Leiterin von Cohere for AI, bemerkte, dass das Projekt wesentlich umfangreicher wurde als ursprünglich erwartet und über 513 Millionen feingetunete Annotationsdaten umfasst. Diese wertvollen Daten gelten als „Goldstaub“ und sind entscheidend für die Verfeinerung des LLM-Trainings über die grundlegenden Daten hinaus, die aus dem Internet gesammelt wurden.

Ivan Zhang, Mitgründer und CTO von Cohere, teilte auf X mit, dass das Team menschliche Demonstrationen in über 100 Sprachen veröffentlicht, um die Zugänglichkeit von LLMs zu erweitern und sicherzustellen, dass es einer globalen Öffentlichkeit dient und nicht nur Englischsprechenden. Er lobte dies als bemerkenswerte wissenschaftliche und operative Leistung von Hooker und dem Team von Cohere for AI.

Potenzial von LLMs für unterrepräsentierte Sprachen und Kulturen freisetzen

Laut einem Blogbeitrag von Cohere zielen das Aya-Modell und das Datenset darauf ab, Forschern zu helfen, das Potenzial von LLMs für zahlreiche Sprachen und Kulturen zu erschließen, die von bestehenden Modellen weitgehend übersehen wurden. Die Benchmarks von Cohere for AI zeigen, dass das Aya-Modell die besten Open-Source-Multilingualmodelle wie mT0 und Bloomz signifikant übertrifft und gleichzeitig die Abdeckung auf über 50 zuvor nicht bediente Sprachen, darunter Somali und Usbekisch, ausdehnt.

Hooker betonte, dass Modelle, die mehr als sechs Sprachen unterstützen, als „extrem“ gelten, und nur wenige tatsächlich eine „massiv mehrsprachige“ Leistung mit etwa 25 Sprachen erreichen.

Bewältigung des Datenmangels jenseits des Englischen

Hooker erklärte, dass außerhalb des englischen Feintunings ein Daten-„Abgrund“ existiert, was das Aya-Datenset bemerkenswert selten macht. Sie glaubt, dass Forscher Sprachmodelle für spezifische Sprachgemeinschaften aus dem Datenset auswählen werden – eine wichtige Notwendigkeit. Allerdings wies sie darauf hin, dass die Hauptschwierigkeit in der Präzision liegt, da Nutzer weltweit personalisierte Modelle erwarten, die auf ihre Sprachen zugeschnitten sind.

Aleksa Gordic, ein ehemaliger Forscher bei Google DeepMind und Schöpfer von YugoGPT, das Mistral und Llama 2 für Serbisch, Bosnisch, Kroatisch und Montenegrinisch übertraf, betonte die Bedeutung multilingualer Datensets wie Aya. Er erklärte, dass für die Entwicklung hochwertiger LLMs in Nicht-Englisch-Sprachen qualitativ hochwertige und reichhaltige Datenquellen unerlässlich sind.

Obwohl er den Fortschritt als Schritt in die richtige Richtung bewertet, stellte Gordic fest, dass eine globale Forschungs-Community und staatliche Unterstützung notwendig sind, um große, hochwertige Datensätze zu schaffen und zu erhalten, um Sprachen und Kulturen im sich entwickelnden KI-Umfeld zu bewahren.

Das Aya-Modell und die Datensätze von Cohere for AI sind jetzt auf Hugging Face verfügbar.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles