Lors de sa visite en Inde l'année dernière, Sam Altman a déclaré qu'une startup avec seulement 10 millions de dollars ne pourrait pas rivaliser avec OpenAI dans la formation de modèles fondamentaux. Ce commentaire a suscité de vives discussions, notamment lorsque CP Gurnani, l'ancien PDG de Tech Mahindra, a répondu que le défi de développer l'IA générative en Inde était accepté.
Fast forward vers début 2024, l'Inde—un pays réputé pour son talent technologique—a réalisé des avancées significatives dans le domaine de l'IA générative. Fait intéressant, la première startup indienne à s'attaquer aux modèles GPT d'OpenAI n'est pas Tech Mahindra, mais Bhavish Aggarwal d'Ola, qui a fondé l'entreprise de covoiturage pour rivaliser avec Uber.
Ola Krutrim, signifiant "artificiel", a lancé son modèle linguistique initial, Krutrim base, ainsi qu'un chatbot correspondant le mois dernier, avec des projets d'adoption généralisée imminente. D'autres acteurs, dont Tech Mahindra et Reliance Industries, commencent également à entrer dans la course.
Expériences Localisées en IA Générative
Alors que des modèles comme GPT d'OpenAI et Llama de Meta excellent dans la génération de textes et de codes, ils éprouvent souvent des difficultés avec les langues non anglaises, en particulier celles moins représentées numériquement. Pour y remédier, des entreprises technologiques en Corée du Sud, en Finlande et en Chine ont lancé le développement de modèles propriétaires pour améliorer la représentation des langues locales et des contextes culturels dans leurs données d'entraînement.
L'Inde fait face à un défi plus complexe, abritant 1,4 milliard de personnes et 22 langues officielles avec des milliers de dialectes. Créer un modèle qui englobe cette diversité linguistique est à la fois difficile et coûteux.
Aggarwal a fondé Krutrim en avril 2023, levant 24 millions de dollars de dettes auprès de Matrix Partners. Le modèle de la startup est entraîné sur deux trillions de tokens, offrant la plus grande représentation des langues indiennes—20 fois plus que tout modèle existant. “Krutrim a une éthique indienne, de manière innée. Il génère des textes et des codes avec une sensibilité culturelle indienne innée,” a déclaré Aggarwal.
Actuellement, le modèle d'Ola comprend 20 langues indiennes et génère des textes dans 10, dont l'hindi et l'anglais. Selon la société, ses performances en langues indiennes dépassent celles de GPT-4, même s'il reste en retrait en anglais—un écart qui devrait se réduire bientôt.
La startup progresse par phases, avec des projets pour soutenir toutes les langues indiennes reconnues officiellement et développer une version Pro du modèle pour résoudre des problèmes complexes, englobant texte, vision et parole. De plus, l'équipe d'Aggarwal développe un chatbot similaire à ChatGPT, spécifiquement conçu pour les utilisateurs indiens, qui n'est pas encore disponible au public, tout en menant des recherches pour créer un superordinateur d'IA.
Concurrence des Géants
À l'heure où les modèles de Krutrim se préparent à des applications concrètes, il est l'une des premières startups indiennes à traiter de manière exhaustive le paysage de l'IA générative. D'autres concurrents notables incluent Tech Mahindra et Reliance Industries.
Sous la direction de Gurnani, Tech Mahindra a lancé The Indus Project, un modèle de langage open source (LLM) lancé pour des tests internes. Prévu pour être dévoilé en février 2024, il se concentre sur l'hindi avec 539 millions de paramètres et 10 milliards de tokens hindi et dialectaux, bien qu'il ne prendra pas en charge toutes les langues dans un premier temps. “Dans la première phase, nous allons créer le LLM pour l'hindi et 37+ dialectes, puis nous étendre à d'autres langues,” a expliqué l'entreprise.
Parallèlement, Reliance Industries, qui a été à l'origine de la révolution 4G en Inde avec Jio, a annoncé des projets pour développer des modèles linguistiques adaptés au marché indien. La société s'est associée à Nvidia pour accéder au superprocesseur GH200 afin de construire une infrastructure d'IA dépassant les capacités du superordinateur le plus rapide d'Inde, en collaborant avec l'Institut Indien de Technologie de Bombay sur le projet nommé Bharat GPT. Bien que les détails soient rares, il semble que Reliance vise à intégrer cette offre GPT à ses services destinés aux consommateurs, y compris Jio.
Aux côtés de Reliance et de Tech Mahindra, la startup Sarvam AI, basée à Bengaluru, a attiré l'attention avec une initiative récemment financée à hauteur de 41 millions de dollars. Sarvam a développé un modèle de langue indienne de 7 milliards de paramètres basé sur Llama2 et prévoit de lancer une plateforme axée sur les entreprises pour développer des applications d'IA générative.
Corover, soutenue par Google, a également fait des progrès, affirmant avoir construit un modèle de langue indienne prenant en charge 22 langues pour des chatbots d'entreprise conversationnels.
Améliorer les Expériences en IA Générative
Alors que le paysage de l'IA générative évolue avec de nouveaux acteurs et des avancées technologiques, l'émergence de modèles de langue indienne sophistiqués, qu'ils soient fermés ou open source, est attendue. Cette évolution améliorera les flux de travail internes et favorisera des applications innovantes dans divers secteurs.
Par exemple, Tech Mahindra envisage le LLM du projet Indus comme un assistant numérique pour plus de 140 millions de fermiers, fournissant des informations essentielles sur les prêts, les pesticides et l'agriculture dans leurs langues de préférence. Cela pourrait également améliorer les services de santé et de finance en interprétant rapidement les dialectes locaux. Les applications potentielles sont nombreuses.
Il sera fascinant de voir comment ces modèles se compareront à leurs homologues mondiaux, y compris les leaders du secteur comme OpenAI, qui se rapproche du lancement de GPT-4.5, et la série Gemini récemment dévoilée par Google.