Zyphra dévoile Zamba : un modèle de fondation SSM-Hybride révolutionnaire pour rendre l'IA accessible sur un plus grand nombre d'appareils.

Zyphra Technologies lance un modèle de fondation révolutionnaire visant à décentraliser davantage l'intelligence artificielle. Zamba, un modèle d'IA open-source doté de 7 milliards de paramètres, utilise les blocs Mamba de l'entreprise et une couche d'attention partagée à l'échelle mondiale. Ce modèle innovant cherche à améliorer l'intelligence sur divers appareils tout en réduisant considérablement les coûts d'inférence.

IA pour Chaque Appareil

« Notre vision est de créer votre IA personnelle », a déclaré Krithik Puthalath, PDG de Zyphra Technologies. « Notre mission est de favoriser de meilleures connexions entre les gens. Bien que la technologie et les réseaux sociaux aient promis un monde plus connecté et épanouissant, nous n'avons pas réussi. Nous aspirons à transformer l'avenir de l'IA. »

Puthalath a souligné que la centralisation de l'IA par les grandes entreprises constitue un problème majeur. « Dans la quête de l'intelligence artificielle générale, des entreprises comme OpenAI et Anthropic ont développé des modèles monolithiques dans le cloud, destinés à tous. Cette approche présente des limites, entraînant un manque de confiance dans ces systèmes et rendant l'IA impersonnelle. Bien que ChatGPT fournisse des réponses précieuses, il lui manque une véritable mémoire, personnalisation et capacité d'adaptation au fil du temps. »

La Valeur des Modèles Linguistiques Plus Petits

Le modèle de 7 milliards de paramètres de Zyphra peut sembler limité par rapport aux modèles plus grands d'OpenAI, Anthropic ou Meta, qui comptent des dizaines de milliards de paramètres. Cependant, la stratégie de Zyphra se concentre sur le déploiement de modèles linguistiques réduits (SML) pour optimiser l'intégration de l'IA dans les appareils quotidiens.

Beren Millidge, co-fondateur et scientifique en chef chez Zyphra, estime que leur modèle initial, BlackMamba, avec 1 milliard de paramètres, a servi de preuve de concept, mais que 7 milliards de paramètres sont idéaux pour des interactions significatives. « Cette taille permet un fonctionnement local sur presque tous les appareils », a-t-il expliqué. En revanche, les modèles plus grands nécessitent généralement des clusters GPU puissants, inaccessibles à la plupart des utilisateurs, soulignant ainsi l'engagement de Zyphra envers la décentralisation.

« Il s'agit de rapprocher l'IA de l'utilisateur », a ajouté Puthalath. « En développant des modèles plus petits et efficaces, adaptés à des cas d'utilisation spécifiques, nous permettons des réponses en temps réel sans dépendre de l'infrastructure cloud. Cette approche améliore non seulement l'expérience utilisateur, mais réduit également les coûts opérationnels, permettant ainsi d'investir davantage dans l'innovation. »

Concurrencer les Modèles Établis

Zyphra affirme que Zamba surpasse d'autres modèles open-source comme LLaMA 1, LLaMA 2 7B et OLMo-7B, les dominant dans divers benchmarks standards tout en utilisant moins de la moitié des données d'entraînement. Bien que les premiers tests aient été réalisés en interne, Zyphra prévoit de publier les poids du modèle pour une évaluation publique.

Interrogé sur le développement de l'architecture de Zamba, Millidge a partagé que leur approche repose sur une intuition pratique concernant les défis des modèles existants et les solutions potentielles. Ils se sont également inspirés des neurosciences, créant une structure qui imite la fonctionnalité du cerveau. Zamba présente un bloc de mémoire global unique constitué de blocs Mamba, permettant un partage d'informations efficace, semblable à l'interaction entre le cortex cérébral et l'hippocampe dans le cerveau humain.

Le processus de Zyphra a inclus une expérimentation significative. « L'intuition seule ne suffit pas », a noté Millidge. « Nous devons réaliser des expériences pour découvrir ce qui fonctionne et ce qui ne fonctionne pas, puis itérer en conséquence. »

Le modèle de fondation open-source Zamba est désormais disponible sur Hugging Face, invitant les utilisateurs à explorer ses capacités.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles