Durante pruebas recientes, un nuevo modelo de lenguaje grande (LLM) demostró consciencia de su proceso de evaluación, sugiriendo una posible metacognición: entendimiento de sus propios procesos de pensamiento. Esto generó debates sobre la autoconciencia de la IA. Sin embargo, la conclusión clave destaca las impresionantes capacidades del modelo, reflejo de los avances en los LLM cada vez más grandes.
A medida que los LLM crecen, también lo hacen sus habilidades emergentes y los costos de desarrollo. Los costos de entrenamiento de los modelos líderes alcanzan ahora aproximadamente los 200 millones de dólares, lo que plantea preocupaciones sobre la accesibilidad futura de la industria. Al igual que en la industria de los semiconductores, donde solo unas pocas empresas pueden permitirse fábricas de chips de última generación, el ámbito de la IA podría pronto estar dominado por grandes corporaciones tecnológicas con los recursos para desarrollar modelos fundamentales líderes como GPT-4 y Claude 3.
El rápido aumento en los costos y las capacidades de entrenamiento, especialmente aquellos que se acercan o superan el rendimiento humano, representa un desafío significativo. Anthropic, un actor destacado en este campo, informa que el entrenamiento de su modelo insignia, Claude 3, cuesta alrededor de 100 millones de dólares. Los futuros modelos, que se esperan para 2024 o principios de 2025, podrían incluso acercarse a precios de mil millones de dólares.
Entender estos costos crecientes requiere examinar la complejidad en aumento de los LLM. Cada nueva generación presenta más parámetros para una comprensión más profunda, lo que requiere mayores recursos de datos y computación. Para 2025 o 2026, los gastos de entrenamiento podrían alcanzar entre 5 y 10 mil millones de dólares, limitando el desarrollo a un puñado de grandes corporaciones y sus socios.
La trayectoria de la industria de la IA refleja la del sector de semiconductores, que vio un cambio de empresas que fabricaban sus propios chips a la externalización de la fabricación a medida que los costos aumentaron. Hoy, solo tres empresas—TSMC, Intel y Samsung—pueden construir fábricas avanzadas de fabricación, con TSMC estimando que una nueva fábrica de semiconductores de última generación podría costar alrededor de 20 mil millones de dólares.
Si bien no todas las aplicaciones de IA requieren LLM de vanguardia, el impacto del aumento de costos varía. En computación, la unidad central de procesamiento (CPU) a menudo utiliza semiconductores de alta gama, pero también opera con chips más lentos que no requieren la tecnología más avanzada. De manera similar, alternativas más pequeñas de LLM como Mistral y Llama3, que utilizan miles de millones de parámetros, pueden ofrecer soluciones efectivas a costos más bajos. El Phi-3 de Microsoft, un modelo de lenguaje pequeño (SLM) con 3.8 mil millones de parámetros, ilustra este enfoque, reduciendo costos al basarse en un conjunto de datos más pequeño en comparación con sus contrapartes más grandes.
Estos modelos más pequeños pueden ser ideales para tareas específicas que no requieren un conocimiento integral en diversos dominios. Por ejemplo, pueden adaptarse para abordar datos específicos de la empresa o necesidades del sector, generando respuestas precisas o salidas de investigación detalladas. Como señaló acertadamente Rowan Curran, analista senior de IA en Forrester Research, “No siempre necesitas un auto deportivo. A veces, necesitas una minivan o una camioneta."
Sin embargo, el aumento de costos en el desarrollo de IA corre el riesgo de crear un panorama dominado por unos pocos grandes jugadores—similar a los semiconductores de alta gama. Esta consolidación podría sofocar la innovación y la diversidad, limitando las contribuciones de startups y empresas más pequeñas. Para contrarrestar esta tendencia, es esencial promover el desarrollo de modelos de lenguaje especializados, vitales para aplicaciones de nicho, y apoyar proyectos de código abierto y esfuerzos colaborativos. Un enfoque inclusivo garantizará que las tecnologías de IA sean accesibles y beneficiosas para una gama más amplia de comunidades, fomentando oportunidades de innovación equitativas.