Cuando Sam Altman visitó India el año pasado, comentó que una startup con solo 10 millones de dólares no podría competir con OpenAI en el entrenamiento de modelos base. Esta afirmación generó un debate considerable, especialmente cuando CP Gurnani, ex CEO de Tech Mahindra, respondió que el desafío de desarrollar inteligencia artificial generativa en India estaba aceptado.
Avanzando hacia principios de 2024, India—un país reconocido por su talento tecnológico—ha logrado avances significativos en inteligencia artificial generativa. Curiosamente, la primera startup india en desafiar los modelos GPT de OpenAI no es Tech Mahindra, sino Krutrim, fundada por Bhavish Aggarwal de Ola, quien anteriormente creó la empresa de transporte para rivalizar con Uber.
Krutrim, que significa "artificial", lanzó su modelo de lenguaje inicial, Krutrim base, y un chatbot asociado el mes pasado, con planes de adopción masiva pronto. Otros actores, incluyendo a Tech Mahindra y Reliance Industries, también están ingresando en esta carrera.
Experiencias Localizadas en IA Generativa
Mientras que modelos como GPT de OpenAI y Llama de Meta brillan en la generación de texto y código, a menudo enfrentan dificultades con lenguas no inglesas, especialmente las menos representadas digitalmente. Para contrarrestar esto, empresas de tecnología en países como Corea del Sur, Finlandia y China han comenzado a desarrollar modelos propios que mejoran la representación de idiomas locales y contextos culturales en sus datos de entrenamiento.
India enfrenta un desafío más complejo, siendo hogar de 1.4 mil millones de personas y 22 idiomas oficiales, además de miles de dialectos. Crear un modelo que abarque esta diversidad lingüística es tanto intimidante como intensivo en capital.
Aggarwal fundó Krutrim en abril de 2023, recaudando 24 millones de dólares en deuda con Matrix Partners. El modelo de la startup está entrenado con dos billones de tokens, lo que representa la mayor inclusión de lenguas índicas: 20 veces más que cualquier modelo existente. “Krutrim tiene un ethos indio, de forma nativa. Genera texto y código con un sentido innato de las sensibilidades culturales indias y su relevancia,” afirmó Aggarwal.
Actualmente, el modelo de Ola comprende 20 idiomas indios y genera texto en 10, incluyendo hindi e inglés. Según la empresa, su rendimiento en idiomas índicos supera al de GPT-4, aunque aún tiene un desempeño inferior en inglés, una brecha que se espera que se cierre pronto.
La startup avanza en fases, con planes de soportar todos los idiomas índicos oficialmente reconocidos y desarrollar una versión Pro del modelo para resolver problemas complejos, abarcando texto, visión y voz. Además, el equipo de Aggarwal está desarrollando un chatbot similar a ChatGPT, adaptado para usuarios indios, que aún no está disponible públicamente, y está llevando a cabo I+D para construir un superordenador de IA.
Gigantes Competitivos
A medida que los modelos de Krutrim se preparan para aplicaciones en el mundo real, se posiciona como una de las primeras startups indias en abordar integralmente el panorama de la inteligencia artificial generativa. Otros competidores notables incluyen a Tech Mahindra y Reliance Industries.
Bajo el liderazgo de Gurnani, Tech Mahindra ha iniciado The Indus Project, un modelo de lenguaje de código abierto (LLM) lanzado para pruebas internas. Se espera que debute en febrero de 2024, enfocándose en hindi con 539 millones de parámetros y 10 mil millones de tokens en hindi y dialectos; sin embargo, inicialmente no soportará todos los idiomas. “En la primera fase, crearemos el LLM para hindi y más de 37 dialectos, y luego expandiremos a otros idiomas,” explicó la empresa.
Mientras tanto, Reliance Industries, que lideró la revolución 4G en India con Jio, ha anunciado planes para desarrollar modelos de lenguaje adaptados al mercado indio. La compañía se ha asociado con Nvidia para acceder al superchip GH200 y construir infraestructura de IA que supere las capacidades del superordenador más rápido de India, colaborando con el Instituto Indio de Tecnología de Bombay en el proyecto denominado Bharat GPT. Aunque los detalles son escasos, parece que Reliance busca integrar esta oferta de GPT en sus servicios orientados al consumidor, incluyendo Jio.
Junto a Reliance y Tech Mahindra, Sarvam AI, con sede en Bengaluru, ha atraído atención con una iniciativa recientemente financiada de 41 millones de dólares. Sarvam ha desarrollado un modelo de lenguaje índico de 7 mil millones de parámetros basado en Llama2 y planea lanzar una plataforma enfocada en empresas para crear aplicaciones de inteligencia artificial generativa.
Apoyada por Google, Corover también ha dado pasos significativos, afirmando haber construido un modelo de lenguaje índico que soporta 22 lenguas para chatbots de enterprise.
Mejorando las Experiencias en IA Generativa
A medida que el panorama de la inteligencia artificial generativa evoluciona con nuevos actores y avances tecnológicos, se espera la aparición de modelos de lenguaje índico sofisticados, tanto cerrados como de código abierto. Esta evolución mejorará los flujos de trabajo internos y fomentará aplicaciones innovadoras en diversos sectores.
Por ejemplo, Tech Mahindra imagina el LLM del Indus Project como un asistente digital para más de 140 millones de agricultores, proporcionando información vital sobre préstamos, pesticidas y agricultura en sus idiomas preferidos. También podría mejorar los servicios de salud y finanzas al interpretar rápidamente dialectos locales. Las aplicaciones potenciales son vastas.
Será fascinante observar cómo estos modelos se desempeñan frente a sus contrapartes globales, incluyendo líderes de la industria como OpenAI, que se aproxima al lanzamiento de GPT-4.5, y la serie Gemini recientemente presentada por Google.