Cohere for AI stellt Open Source LLM vor, das 101 Sprachen unterstützt: Stärkung der globalen KI-Kommunikation

Home KI-Nachrichten Cohere for AI stellt Open Source LLM vor, das 101 Sprachen unterstützt: Stärkung der globalen KI-Kommunikation

Updated on Februar 12 2024

Heute stellte Cohere for AI, das 2022 gegründete non-profit Forschungsinstitut von Cohere, Aya vor – ein Open-Source-LLM (großes Sprachmodell), das 101 Sprachen unterstützt und somit mehr als doppelt so viele wie bestehende Open-Source-Modelle bietet.

Zur Veröffentlichung gehört auch das Aya-Datenset, das menschliche Annotationen enthält, die für das Training von Modellen in weniger verbreiteten Sprachen entscheidend sind. Die Forscher von Cohere for AI haben zudem Methoden entwickelt, um die Modellleistung mit begrenzten Trainingsdaten zu verbessern.

Das Aya-Projekt, das im Januar 2023 gestartet wurde, war eine bedeutende Initiative, an der über 3.000 Mitwirkende aus 119 Ländern beteiligt waren. Sara Hooker, VP of Research bei Cohere und Leiterin von Cohere for AI, bemerkte, dass das Projekt wesentlich umfangreicher wurde als ursprünglich erwartet und über 513 Millionen feingetunete Annotationsdaten umfasst. Diese wertvollen Daten gelten als „Goldstaub“ und sind entscheidend für die Verfeinerung des LLM-Trainings über die grundlegenden Daten hinaus, die aus dem Internet gesammelt wurden.

Ivan Zhang, Mitgründer und CTO von Cohere, teilte auf X mit, dass das Team menschliche Demonstrationen in über 100 Sprachen veröffentlicht, um die Zugänglichkeit von LLMs zu erweitern und sicherzustellen, dass es einer globalen Öffentlichkeit dient und nicht nur Englischsprechenden. Er lobte dies als bemerkenswerte wissenschaftliche und operative Leistung von Hooker und dem Team von Cohere for AI.

Potenzial von LLMs für unterrepräsentierte Sprachen und Kulturen freisetzen

Laut einem Blogbeitrag von Cohere zielen das Aya-Modell und das Datenset darauf ab, Forschern zu helfen, das Potenzial von LLMs für zahlreiche Sprachen und Kulturen zu erschließen, die von bestehenden Modellen weitgehend übersehen wurden. Die Benchmarks von Cohere for AI zeigen, dass das Aya-Modell die besten Open-Source-Multilingualmodelle wie mT0 und Bloomz signifikant übertrifft und gleichzeitig die Abdeckung auf über 50 zuvor nicht bediente Sprachen, darunter Somali und Usbekisch, ausdehnt.

Hooker betonte, dass Modelle, die mehr als sechs Sprachen unterstützen, als „extrem“ gelten, und nur wenige tatsächlich eine „massiv mehrsprachige“ Leistung mit etwa 25 Sprachen erreichen.

Bewältigung des Datenmangels jenseits des Englischen

Hooker erklärte, dass außerhalb des englischen Feintunings ein Daten-„Abgrund“ existiert, was das Aya-Datenset bemerkenswert selten macht. Sie glaubt, dass Forscher Sprachmodelle für spezifische Sprachgemeinschaften aus dem Datenset auswählen werden – eine wichtige Notwendigkeit. Allerdings wies sie darauf hin, dass die Hauptschwierigkeit in der Präzision liegt, da Nutzer weltweit personalisierte Modelle erwarten, die auf ihre Sprachen zugeschnitten sind.

Aleksa Gordic, ein ehemaliger Forscher bei Google DeepMind und Schöpfer von YugoGPT, das Mistral und Llama 2 für Serbisch, Bosnisch, Kroatisch und Montenegrinisch übertraf, betonte die Bedeutung multilingualer Datensets wie Aya. Er erklärte, dass für die Entwicklung hochwertiger LLMs in Nicht-Englisch-Sprachen qualitativ hochwertige und reichhaltige Datenquellen unerlässlich sind.

Obwohl er den Fortschritt als Schritt in die richtige Richtung bewertet, stellte Gordic fest, dass eine globale Forschungs-Community und staatliche Unterstützung notwendig sind, um große, hochwertige Datensätze zu schaffen und zu erhalten, um Sprachen und Kulturen im sich entwickelnden KI-Umfeld zu bewahren.

Das Aya-Modell und die Datensätze von Cohere for AI sind jetzt auf Hugging Face verfügbar.

Neueste Erkenntnisse aus Meetings: Otter.ai’s innovative 'Meeting GenAI' revolutioniert die Art und Weise, wie Sie Informationen aus Gesprächen erfassen.

Effektive Werbestrategien: Nutzung von Generativer KI, genreübergreifendem Content und Gamification | AppLovin

Most people like

Alter

35.2K

Entdecken Sie personalisiertes Fitness zu Hause, das auf Ihre einzigartigen Gene und biometrischen Daten abgestimmt ist. Entfalten Sie Ihr Potenzial mit einem speziell für Sie entwickelten Trainingsprogramm, das Ihre Ergebnisse optimiert und Ihre Wellness-Reise bereichert.

Heimfitness Fitness

Origin

60K

Entdecken Sie die ultimative All-in-One-Plattform für das Geldmanagement, die Ihr finanzielles Wachstum und Ihren Erfolg vorantreibt.

Geldmanagement AI Advertising Assistant

Komiko : AI Comics, AI Characters & AI Anime

8.4K

Natürlich! Bitte geben Sie die Einleitung an, die ich verfeinern soll.

KI-Comics AI Manga & Comic

CartoonGen

16.2K

Entfesseln Sie die Magie der KI-Animationsgeneration mit unseren innovativen Tools, die Text oder Bilder in atemberaubende Pixar-ähnliche Animationen verwandeln. Diese aufregende Technologie ermöglicht es Ihnen, lebendige, fesselnde Charaktere und Szenen zu erschaffen, die den verspielten Charme von Pixar-Filmen widerspiegeln und Ihre Ideen auf eine nie dagewesene Weise zum Leben erwecken. Egal, ob Sie ein kreativer Kopf auf der Suche nach Inspiration sind oder einfach nur Spaß haben möchten, tauchen Sie noch heute in die Welt der Pixar-ähnlichen KI-Cartoons ein!

KI-Cartoon-Generator AI Photo & Image Generator

Find AI tools in YBX