La startup finlandaise Silo AI suscite l’enthousiasme cette semaine avec le lancement de Poro, un modèle de langage open-source (LLM) visant à améliorer les capacités multilingues de l'IA pour les langues européennes. Poro est la première offre d'une série de modèles open-source destinée à soutenir les 24 langues officielles de l'Union européenne. Développé par SiloGen, la division d'IA générative de Silo AI, en collaboration avec le groupe de recherche TurkuNLP de l'université de Turku, Poro promet de révolutionner le traitement des langues sur le continent.
« Il s'agit de souveraineté numérique », a déclaré Peter Sarlin, PDG de Silo AI. « Nous souhaitons des modèles qui incarnent les valeurs, la culture et les langues européennes. Notre objectif est de permettre aux entreprises européennes – et à toute organisation – de créer des modèles propriétaires qui conservent leur valeur en Europe. »
Le modèle Poro 34B, doté de 34,2 milliards de paramètres, tire son nom du mot finlandais désignant le « renne ». Il utilise une architecture de transformateur BLOOM avec des embeddings ALiBi et a été entraîné sur un ensemble de données diversifié comptant 21 trillions de tokens multilingues, comprenant l'anglais, le finlandais et des langages de programmation comme Python et Java.
Poro est entraîné sur LUMI, le superordinateur le plus puissant d'Europe, situé à Kajaani, en Finlande, et équipé de 512 GPU AMD Instinct MI250X, offrant une puissance de calcul impressionnante de 74 pétaflops.
Sarlin a souligné que Poro répond à un défi majeur : entraîner des modèles de langage naturel efficaces pour des langues européennes à faible ressources, comme le finlandais. Le modèle adopte une stratégie d'entraînement cross-lingual, capitalisant sur les données d'autres langues mieux dotées, comme l'anglais.
Poro est le deuxième grand LLM open-source à émerger d'Europe, après le très financé Mistral 7B de la startup française Mistral AI. Son lancement souligne l'empreinte croissante de l'Europe dans le paysage en évolution rapide de l'IA générative et signale une concurrence de plus en plus forte entre les diverses entités de recherche et développement en IA.
Points de vérification de recherche Poro
SiloGen s'engage à la transparence grâce au programme Poro Research Checkpoints, qui documente le parcours d'entraînement du modèle. « Nous publierons des points de contrôle tout au long du processus d'entraînement, une approche relativement nouvelle », a expliqué Sarlin. « Une telle transparence dans l'entraînement des modèles est rare. »
Le premier point de contrôle de Poro 34B couvre les 30 % initiaux de son entraînement. Les premiers benchmarks indiquent que Poro atteint déjà des résultats à la pointe à cette phase. Dans l'évaluation FIN-bench pour le finlandais, Poro surpasse des modèles monolingues spécialisés comme FinGPT.
« Le modèle a montré une performance supérieure pour les langues à faibles ressources avec seulement 30 % de l'entraînement complété », a noté Sarlin. En identifiant des motifs communs entre les langues apparentées, Poro excelle même lorsque les données d'entraînement sont limitées.
Fait remarquable, les capacités multilingues de Poro ne compromettent pas ses performances en anglais. Les tests montrent qu'il surpasse les modèles existants sur les benchmarks finlandais et est en bonne voie pour égaler ou dépasser les performances en anglais.
Une alternative open-source aux grandes entreprises technologiques
Sarlin plaide en faveur de modèles open-source comme Poro comme l'avenir de l'IA, offrant une alternative transparente et éthique aux modèles propriétaires des géants de la technologie. « Je pense que nous verrons de nombreuses alternatives open-source émerger », a-t-il déclaré. « L'avenir le plus sûr est ancré dans l'open-source, avec une visibilité claire sur la construction et l'architecture des modèles. »
Il a ajouté que des efforts considérables ont été déployés pour garantir que les données et le modèle respectent les normes réglementaires dès leur conception. Silo AI prévoit de publier régulièrement des points de contrôle Poro tout au long du processus d'entraînement, visant à établir une vaste famille de modèles open-source pour toutes les langues européennes.
Une collaboration avec l'Université de Turku
Le développement de Poro reflète un partenariat fructueux entre Silo AI et l'université de Turku, où les chercheurs de TurkuNLP ont été des pionniers dans les ressources open-source pour la langue finlandaise. « Mon groupe de recherche et plusieurs professeurs ont uni leurs forces pour faire évoluer l'entreprise grâce au financement des revenus », a partagé Sarlin. « Avec plus de 300 employés, dont la plupart détiennent un doctorat dans des domaines liés à l'IA, nous nous différencions considérablement de nombreux autres dans l'industrie. »
Cette collaboration allie l'expertise pratique en IA de Silo AI à l'avance de l'université dans la recherche sur la modélisation multilingue, illustrant un modèle efficace de coopération entre l'industrie et le milieu académique pour renforcer les capacités de l'IA pour les langues européennes à faible ressources.
L’Europe est-elle prête à diriger l'IA open-source ?
Le lancement de Poro marque le début d'une nouvelle phase de collaboration ouverte et de transparence dans le traitement du langage naturel. Des initiatives comme Poro Research Checkpoints offrent des insights et des ressources auparavant monopolisées par les grandes entreprises technologiques.
« Nous collaborons avec des clients tels qu’Allianz, Rolls Royce, Honda et Philips, et nous avons entendu des préoccupations de la part de grandes entreprises concernant les réglementations futures et les modèles qu'elles peuvent utiliser », a déclaré Sarlin.
Si Poro réalise son potentiel, il pourrait démocratiser l'accès à des modèles multilingues puissants, offrant à l'Europe une alternative native aux géants technologiques américains. Bien qu'il soit encore tôt, Poro représente un pas significatif vers un accès à l'IA linguistique plus ouvert et accessible, sortant des silos propriétaires pour entrer dans le domaine public.