Le PDG de Mistral confirme la 'fuite' d'un nouveau modèle d'IA open source approchant les performances de GPT-4.

Les derniers jours ont été mouvementés pour la communauté de l'IA open source, même selon ses normes habituellement rapides.

Chronologie des événements :

Le 28 janvier, un utilisateur nommé « Miqu Dev » a téléchargé une collection de fichiers sur HuggingFace, une plateforme de premier plan pour les modèles d'IA open source. Ce téléchargement a présenté le modèle « miqu-1-70b », un nouveau modèle de langage de grande taille (LLM) qui semble être une innovation.

L'entrée sur HuggingFace, toujours accessible au moment de la rédaction, souligne que ce LLM utilise le même format de prompt que Mistral, une entreprise parisienne d'IA reconnue pour son modèle Mixtral 8x7b. Beaucoup considèrent Mixtral comme le LLM open source le plus performant, étant une version finement réglée du Llama 2 de Meta.

Une découverte virale :

Le même jour, un utilisateur anonyme sur 4chan (probablement « Miqu Dev ») a partagé un lien vers les fichiers miqu-1-70b. À mesure que l'information se répandait, les utilisateurs sur X (anciennement Twitter) ont commencé à discuter des performances impressionnantes du modèle sur des tâches courantes de LLM, selon les tests de référence, rivalisant avec le GPT-4 d'OpenAI sur l'EQ-Bench.

Réactions de la communauté :

Les chercheurs en apprentissage machine ont exprimé leur intrigue sur LinkedIn. Maxime Labonne, un scientifique en ML chez JP Morgan & Chase, s'est demandé si « Miqu » signifiait « MIstral QUantized ». Il a noté : « Grâce à @152334H, nous avons maintenant une version non quantifiée de miqu disponible », suggérant un potentiel de performance améliorée par rapport à GPT-4 dans de futures itérations ajustées.

La quantisation est une technique qui permet aux modèles d'IA de fonctionner sur du matériel moins puissant en simplifiant des séquences numériques complexes dans leur architecture.

Spéculations et confirmations :

Des spéculations ont émergé autour de l'idée que « Miqu » pourrait être un modèle Mistral récemment divulgué, étant donné l'approche discrète de l'entreprise concernant les mises à jour. Arthur Mensch, co-fondateur et directeur général de Mistral, a confirmé cette théorie en annonçant sur X qu'un employé trop zélé d'un client en accès anticipé avait divulgué une version quantifiée d'un ancien modèle qu'ils avaient ouvertement entraîné. Mensch a expliqué : « Nous avons réentraîné ce modèle à partir de Llama 2 le jour où nous avons accédé à notre cluster. »

Plutôt que de demander le retrait du post sur HuggingFace, Mensch a laissé un commentaire suggérant que l’auteur du post envisage de faire une attribution appropriée.

Implications pour le paysage de l'IA :

La note de Mensch invitant à « rester à l'écoute ! » suggère que Mistral développe une version du modèle « Miqu » qui pourrait rivaliser avec GPT-4. Cela pourrait marquer un tournant non seulement pour l'IA générative open source, mais pour l'ensemble du paysage de l'IA. Depuis son lancement en mars 2023, GPT-4 a été reconnu comme le LLM le plus avancé disponible, surpassant même les modèles Gemini tant attendus de Google.

L'émergence d'un modèle open source similaire à GPT-4 pourrait exercer une pression concurrentielle considérable sur OpenAI, surtout à mesure que les entreprises recherchent de plus en plus des modèles combinant éléments open source et propriétaires. Bien qu'OpenAI puisse conserver un avantage avec son GPT-4 Turbo et GPT-4V (vision) plus rapides, la communauté de l'IA open source comble rapidement l'écart. La question qui reste en suspens est : l'avance et les offres uniques d'OpenAI seront-elles suffisantes pour le maintenir à l'avant-garde des LLM ?

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles