Elon Musk dévoile Grok-1.5 : Proche des jalons de performance de GPT-4

Quelques semaines seulement après avoir rendu Grok-1 open-source, xAI d'Elon Musk s'apprête à lancer une version améliorée de son modèle de langage propriétaire — Grok-1.5, la semaine prochaine.

Grok-1.5 vise à renforcer les capacités de raisonnement et de résolution de problèmes, se rapprochant ainsi en performance des modèles établis tels que GPT-4 d'OpenAI et Claude 3 d'Anthropic. Bien qu'il gère des contextes longs, il reste encore derrière Gemini 1.5 Pro, qui prend en charge une fenêtre contextuelle pouvant atteindre 1 million de tokens.

Quoi de Neuf avec Grok-1.5 ?

Initialement annoncé en novembre dernier, Grok-1 a été inspiré par "Le Guide du voyageur galactique" et conçu pour aider les utilisateurs dans leur quête de savoir, indépendamment de leur origine ou position politique. Dans des benchmarks précédents, Grok-1 avait surpassé Llama-2-70B et GPT-3.5.

Avec Grok-1.5, xAI affirme des améliorations notables sur des indicateurs clés. Dans les tests, Grok-1.5 a obtenu un score de 50,6% au benchmark MATH, 90% au benchmark GSM8K et 74,1% au benchmark HumanEval, montrant des progrès significatifs dans les tâches de programmation et de mathématiques. De plus, Grok-1.5 a obtenu un score de 81,3% au benchmark MMLU, marquant une nette amélioration par rapport aux 73% de Grok-1. Avec une fenêtre contextuelle allant jusqu'à 128 000 tokens, Grok-1.5 peut traiter beaucoup plus d'informations — 16 fois celle de son prédécesseur — rendant le modèle performant dans l'analyse et le résumé de documents longs tout en maintenant des capacités d'instruction efficaces.

Concurrence avec les Modèles Leaders

Grok-1.5 non seulement dépasse Grok-1 mais réduit également l'écart de performance avec des modèles populaires tels que Gemini 1.5 Pro, GPT-4 et Claude 3. Par exemple, le score de 81,3% de Grok-1.5 au benchmark MMLU devance le récemment lancé Mistral Large, mais reste derrière Gemini 1.5 Pro à 83,7%, GPT-4 à 86,4% et Claude 3 Opus à 86,8%. Dans le benchmark GSM8K, il est également légèrement en deçà des offres de Google, OpenAI et Anthropic. Notons que Grok-1.5 excelle en HumanEval, dépassant tous les modèles sauf Claude 3 Opus.

Brian Roemmele, consultant en technologie, prévoit que Grok-2, actuellement en formation, sera probablement l'une des plateformes d'IA LLM les plus puissantes à son lancement, surpassant OpenAI sur de nombreux critères.

Disponibilité de Grok-1.5

xAI prévoit de déployer Grok-1.5 la semaine prochaine, en commençant par les testeurs précoces et les utilisateurs du chatbot Grok sur la plateforme X (anciennement Twitter). Le lancement sera progressif, introduisant de nouvelles fonctionnalités, y compris un éventuel "mode amusant", tout en élargissant graduellement l'accès à un plus grand nombre d'utilisateurs.

Le lancement initial de Grok sur X faisait partie d'une stratégie visant à stimuler l'adoption tant de Grok que de la plateforme X. Grok est actuellement disponible via l'abonnement ‘Premium+’ de la plateforme à 16$/mois, mais Musk a récemment annoncé qu'il sera également accessible à tous les abonnés Premium à 8$/mois. De plus, les abonnés vérifiés de certains niveaux de souscription bénéficieront d'avantages Premium, y compris l'accès gratuit à Grok.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles