El director de ingeniería de Meta para la IA generativa, Sergey Edunov, proporcionó recientemente una sorprendente estimación sobre la energía necesaria para satisfacer la creciente demanda de aplicaciones de inteligencia artificial en el próximo año: solo dos nuevas centrales nucleares. Durante un panel que moderé en el Digital Workers Forum en Silicon Valley, Edunov, quien supervisa el entrenamiento del modelo de código abierto Llama 2 de Meta, afirmó que esta cantidad de energía debería ser suficiente para cubrir las necesidades de IA de la humanidad durante un año. Al abordar las preocupaciones sobre la capacidad global para soportar los crecientes requisitos energéticos de la IA generativa, comentó: “Podemos resolver definitivamente este problema”.
Edunov reconoció que su evaluación se basaba en cálculos aproximados, pero consideró que ofrecía una estimación razonable de la energía requerida para la "inferencia". La inferencia es el proceso mediante el cual la IA responde a consultas o hace recomendaciones, tras un extenso entrenamiento del modelo.
Necesidades Energéticas para la Inferencia Controladas
Edunov hizo una distinción entre los requisitos de energía para la inferencia y el entrenamiento. Explicó que la inferencia representará la mayor parte del procesamiento a medida que las organizaciones desplieguen aplicaciones de IA. Su cálculo para la inferencia incluyó el lanzamiento esperado de uno a dos millones de GPUs H100 por parte de Nvidia el próximo año. Cuando se utilicen completamente para generar tokens para modelos de lenguaje de tamaño promedio (LLMs), esto equivaldría a aproximadamente 100,000 tokens por persona en la Tierra diariamente, una cifra considerable.
Los tokens son las unidades fundamentales de texto que los LLMs utilizan para procesar y generar lenguaje. La energía necesaria para estos cálculos es significativa; cada GPU H100 consume alrededor de 700 vatios. Considerando la energía adicional para centros de datos y refrigeración, Edunov redondeó esta cifra a 1 kilovatio por GPU. En última instancia, concluyó que solo se necesitarían dos reactores nucleares para alimentar eficazmente todas las GPUs. “A la escala de la humanidad, no es tanto”, destacó Edunov, sugiriendo que la sociedad podría soportar razonablemente 100,000 tokens por día por persona.
Entrenamiento de IA Generativa: El Desafío de los Datos
En contraste, Edunov enfatizó que el entrenamiento de los LLMs plantea un desafío diferente: obtener suficientes datos. Estimó que, aunque toda la información disponible públicamente en internet comprende aproximadamente 100 billones de tokens, este número disminuye significativamente tras la limpieza y la deduplicación, posiblemente entre 10 y 20 billones de tokens. Si se prioriza la calidad de los datos, la cantidad de tokens disponibles sería aún menor. Expresó su preocupación de que los modelos de próxima generación podrían requerir un orden de magnitud más de datos que las versiones anteriores. Por ejemplo, si GPT-4 se entrenó con 20 billones de tokens, el siguiente modelo podría necesitar alrededor de 200 billones, y esos datos podrían no estar fácilmente disponibles.
Edunov resaltó que los investigadores están explorando técnicas de eficiencia para mejorar el aprendizaje de los modelos a partir de conjuntos de datos más pequeños, así como aprovechando fuentes de datos alternativas, como entradas multimodales (incluyendo video).
Perspectivas del Panel sobre Recursos de Datos y Tecnologías
Edunov participó en un panel titulado “Generando Tokens: La Electricidad de la Era GenAI”, junto a Nik Spirin, director de IA generativa en Nvidia, y Kevin Tsai, líder de arquitectura de soluciones para IA generativa en Google. Spirin coincidió con Edunov, indicando que existen reservorios de datos adicionales más allá de internet público, aunque el acceso sea restringido.
Spirin defendió la necesidad de modelos fundamentales de código abierto robustos para reducir las redundancias computacionales en esfuerzos independientes. Este enfoque colaborativo podría capitalizar modelos pre-entrenados, permitiendo a las organizaciones centrarse en desarrollar aplicaciones inteligentes.
Tsai comentó que varias tecnologías emergentes, como la Generación Aumentada por Recuperación (RAG), podrían aliviar la carga del entrenamiento mientras mejoran el rendimiento del modelo. Las iniciativas colaborativas pueden dar lugar a modelos versátiles para diversas aplicaciones, lo cual considera vital para la sostenibilidad.
Predicciones Futuras para el Desarrollo de LLM
Al final del panel, invité a los panelistas a compartir sus predicciones sobre los avances de los LLM en los próximos dos a tres años. Todos coincidieron en que, aunque la trayectoria exacta de las mejoras en LLM aún es incierta, el valor sustancial que proporcionan ya es evidente, con una adopción empresarial generalizada anticipada en dos años.
Edunov predijo que tendríamos claridad sobre la viabilidad de la inteligencia general artificial (AGI) en tres a cuatro años. Basándose en tendencias tecnológicas pasadas, Spirin sugirió que las empresas podrían ser inicialmente cautelosas al adoptar tecnologías de IA, pero es probable que se materialice un valor significativo en dos años.
Tsai identificó los desafíos en la cadena de suministro, derivados de la dependencia de Nvidia en la memoria de alto ancho de banda para GPUs, como un cuello de botella crítico en la mejora del modelo. Sin embargo, expresó optimismo sobre innovaciones como el proyecto Blib-2 de Salesforce, que busca crear modelos más pequeños y eficientes, potencialmente eludiendo las limitaciones actuales.