Meta Llama 3.2 : Une Nouvelle Ère dans l'IA Multimodale
Aujourd'hui, lors de Meta Connect, l'entreprise a révélé Llama 3.2, son premier modèle de vision majeur intégrant la compréhension des images et du texte.
Llama 3.2 propose des modèles de petite et moyenne taille (11B et 90B paramètres) ainsi que des modèles légers uniquement pour le texte (1B et 3B paramètres), optimisés pour les appareils mobiles et edge.
« C'est notre premier modèle multimodal open-source », a déclaré Mark Zuckerberg, PDG de Meta, lors de son discours d'ouverture. « Il ouvrira la voie à de nombreuses applications nécessitant une compréhension visuelle. »
À l'instar de son prédécesseur, Llama 3.2 offre une longueur de contexte étendue de 128 000 jetons, permettant l'entrée de textes substantiels, équivalente à des centaines de pages de livres scolaires. Des nombres de paramètres plus élevés améliorent généralement l'exactitude et la capacité du modèle à traiter des tâches complexes.
Meta a également présenté aujourd'hui des distributions officielles de la pile Llama, permettant aux développeurs d'exploiter ces modèles dans divers environnements, y compris sur site, sur appareil, dans le cloud et en configuration à nœud unique.
« L'open source est — et sera toujours — l'option la plus économique, personnalisable et fiable », a affirmé Zuckerberg. « Nous avons atteint un tournant dans l'industrie ; cela devient la norme, semblable à Linux pour l'IA. »
Compétition avec Claude et GPT-4o
Un peu plus de deux mois après le lancement de Llama 3.1, Meta annonce une multiplication par dix de ses capacités.
« Llama continue de progresser rapidement », a noté Zuckerberg. « Il déverrouille un nombre croissant de fonctionnalités. »
Les deux plus grands modèles de Llama 3.2 (11B et 90B) prennent désormais en charge l'utilisation d'images, leur permettant d'interpréter des graphiques, de générer des légendes d'images et d'identifier des objets à partir de sollicitations en langage naturel. Par exemple, les utilisateurs peuvent demander le mois de ventes le plus élevé de leur entreprise, et le modèle peut en déduire une réponse en utilisant les graphiques disponibles. Les modèles plus grands peuvent extraire des informations d'images pour créer des légendes détaillées.
Les modèles légers facilitent le développement d'applications personnalisées pour un usage privé, comme résumer des communications récentes ou gérer des invitations à des réunions de suivi.
Meta affirme que Llama 3.2 est compétitif avec Claude 3 Haiku d'Anthropic et GPT-4o-mini d'OpenAI en reconnaissance d'images et tâches de compréhension visuelle. Notamment, il surpasse des concurrents comme Gemma et Phi 3.5-mini dans le respect des instructions, la synthèse, l'utilisation d'outils et la réécriture des prompts.
Les modèles Llama 3.2 sont disponibles au téléchargement sur llama.com, Hugging Face et sur les plateformes partenaires de Meta.
Amélioration de l'IA d'Entreprise et Fonctionnalités Engagantes pour les Consommateurs
Meta améliore également son IA d'entreprise, permettant aux entreprises d'utiliser des annonces click-to-message sur WhatsApp et Messenger. Cela inclut le développement d'agents capables de répondre à des requêtes courantes, de discuter des détails de produits et de finaliser des achats.
L'entreprise rapporte que plus d'un million d'annonceurs exploitent ses outils d'IA générative, ce qui a abouti à la création de 15 millions d'annonces au cours du mois dernier. En moyenne, les campagnes publicitaires utilisant l'IA générative de Meta connaissent une augmentation de 11 % des taux de clics et une hausse de 7,6 % des taux de conversion.
Pour les consommateurs, l'IA de Meta adopte une « voix », comprenant plusieurs voix de célébrités, dont Dame Judi Dench, John Cena, Keegan-Michael Key, Kristen Bell et Awkwafina.
« Je pense que la voix sera un moyen d'interaction plus naturel avec l'IA que le texte », a déclaré Zuckerberg. « C'est tout simplement bien mieux. »
Le modèle peut répondre à des commandes vocales ou textuelles avec les voix de célébrités sur des plateformes comme WhatsApp, Messenger, Facebook et Instagram. L'IA de Meta répondra également aux photos partagées, avec la possibilité de modifier les images en ajoutant ou en modifiant les arrière-plans. De plus, Meta expérimente de nouveaux outils de traduction, de doublage vidéo et de synchronisation labiale pour son IA.
Zuckerberg a réaffirmé que l'IA de Meta est en passe de devenir l'assistant le plus utilisé au monde, affirmant : « Elle est probablement déjà là. »