Microsoft lance Phi-3 pour un usage général et dévoile Phi-3-Vision : un aperçu du modèle linguistique multimodal compact.

Microsoft élargit l'accès à sa famille de modèles légers Phi-3 pour les développeurs, près d'un mois après son annonce initiale. Cette famille comprend Phi-3-medium, Phi-3-small et Phi-3-mini, ce dernier étant désormais intégré à Azure AI. De plus, Microsoft a lancé le variant multimodal, Phi-3-vision, qui possède 4,2 milliards de paramètres.

Aperçu de Phi-3

Développé par Microsoft Research, Phi-3 est un modèle de langage robuste de 3 milliards de paramètres conçu pour offrir des capacités de raisonnement solides, comparables à celles de modèles plus grands, mais à un coût inférieur. Ceci marque la quatrième itération des modèles de langage compacts de Microsoft, après Phi-1, Phi-1.5 et Phi-2.

Agents IA et Modèles Plus Petits

La demande croissante pour des solutions d'IA fonctionnant localement ou sur des appareils incite les développeurs à explorer des modèles plus efficaces et plus petits. La famille Phi-3 de Microsoft comprend trois options : Phi-3-mini (3,8 milliards de paramètres), Phi-3-small (7 milliards de paramètres) et Phi-3-medium (14 milliards de paramètres). Selon l’entreprise, Phi-3 offre des performances équivalentes à celles de GPT-3.5 d'OpenAI dans un format plus léger.

Le lancement de Phi-3 coïncide avec l’introduction prochaine des capacités d'IA dans les PC. Les développeurs peuvent désormais tirer parti de ces variantes pour améliorer la fonctionnalité de l'IA sur les ordinateurs portables, les appareils mobiles et les wearables.

Aperçu de Phi-3-vision

En plus des modèles Phi-3, Microsoft dévoile Phi-3-vision, qui prend en charge des tâches générales de raisonnement visuel, telles que l'analyse de graphiques et de tableaux. Avec 4,2 milliards de paramètres, les utilisateurs peuvent interagir avec Phi-3-vision en posant des questions sur des visualisations de données ou des images spécifiques.

Il est à noter que Google a également présenté son modèle multimodal léger, PaliGemma, lors de sa récente conférence pour développeurs, avec 3 milliards de paramètres, légèrement moins que celui de Microsoft. La capacité de l'IA à traiter différents types d'entrées est cruciale pour les développeurs. Un modèle qui allie l'efficacité d'une architecture légère avec les performances de modèles de langage plus grands pourrait considérablement favoriser son adoption.

Bien que Phi-3-vision soit actuellement en prévisualisation, Microsoft n’a pas encore annoncé sa disponibilité publique.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles