Alimentando a la Bestia: Cómo un Mercado de Datos en Expansión Impulsa la Demanda Inagotable de LLMs

La semana pasada, discutí las percepciones de Mark Zuckerberg sobre la estrategia de IA de Meta, resaltando una ventaja significativa: un extenso y en constante expansión conjunto de datos interno que entrena sus modelos Llama. Zuckerberg mencionó que Facebook e Instagram reúnen "cientos de miles de millones de imágenes de uso público y decenas de miles de millones de videos públicos", superando el tamaño del conjunto de datos de Common Crawl. Los usuarios también comparten una cantidad masiva de publicaciones de texto públicas en estas plataformas.

Las Necesidades Insaciables de Datos de la IA

Sin embargo, los datos para entrenar modelos como los de Meta, OpenAI o Anthropic son solo el punto de partida para entender los requerimientos de datos de los grandes modelos de lenguaje (LLMs) de hoy. La demanda continua de inferencia—usar LLMs para diversas aplicaciones—crea un ciclo interminable de consumo de datos. Es similar al juego clásico Hungry Hungry Hippos, donde los modelos de IA recopilan datos de forma constante para funcionar eficazmente.

Conjuntos de Datos Específicos para Una Inferencia Efectiva de IA

Brad Schneider, fundador y CEO de Nomad Data, enfatizó que "[la inferencia es] el mercado más grande, y creo que la gente no se da cuenta de eso". Nomad Data opera como una plataforma de descubrimiento de datos, conectando a más de 2,500 proveedores de datos con empresas que buscan conjuntos de datos específicos para sus necesidades de inferencia de LLM.

En lugar de actuar como un corredor de datos, Nomad permite a las compañías buscar datos en lenguaje natural. Por ejemplo, un usuario podría solicitar "un flujo de datos de cada techo que esté en construcción en Estados Unidos cada mes". Schneider explicó que muchos usuarios no conocen la nomenclatura exacta de los conjuntos de datos que requieren. Los LLM de Nomad ayudan a identificar proveedores relevantes que pueden suministrarlos.

Coincidencias de Datos Instantáneas

La rápida coincidencia de demanda y oferta ejemplifica la efectividad de la plataforma. Schneider recordó a una compañía de seguros que listó sus datos en Nomad: casi de inmediato, otra empresa buscaba datos detallados sobre accidentes automovilísticos, sin saber que esa información pertenecía a los "datos de seguros". "Esto es un poco la magia", comentó Schneider.

La Importancia de la Alimentación Continua de Datos

Mientras que los datos de entrenamiento son esenciales, Schneider destacó que los modelos se entrenan infrecuentemente, y la inferencia ocurre de forma continua—en ocasiones miles de veces por minuto. Esta demanda constante de datos frescos es crucial para las empresas que aprovechan la IA generativa, especialmente para crear insights valiosos. "Necesitas alimentarlo para que haga algo interesante", explicó.

Identificar el "alimento" de datos adecuado sigue siendo un desafío para las grandes empresas. Si bien utilizar datos internos es crítico, incorporar conjuntos de datos externos de alta calidad ha sido históricamente complicado. Las organizaciones a menudo tienen dificultades para extraer información útil de vastos archivos, como millones de PDFs. Afortunadamente, los LLM pueden ahora analizar datos textuales de diversas fuentes—incluidos registros de consumidores y archivos gubernamentales—de manera rápida.

Desbloqueando el Valor de Datos Anteriormente Inexplorados

Schneider comparó esta transformación con descubrir "un tesoro enterrado". Datos antes considerados inútiles se han vuelto altamente valiosos. Además, los datos son esenciales para personalizar el entrenamiento de LLM. Por ejemplo, para desarrollar un modelo que reconozca recibos japoneses, es necesario un conjunto de datos de tales recibos. De manera similar, crear un modelo que identifique anuncios en imágenes de campos de fútbol requiere un conjunto de datos de videos pertinentes.

Empresas de Medios Monetizando Sus Datos

Las grandes empresas de medios también están empezando a licenciar sus datos a firmas de LLM. OpenAI se asoció recientemente con Axel Springer, mientras que las negociaciones con el New York Times terminaron en una demanda. Nomad Data está colaborando activamente con medios y otras empresas para expandir su red de proveedores de datos. Schneider informó que Nomad ha involucrado a varias corporaciones—desde fabricantes automotrices hasta compañías de seguros—que están listando sus datos en la plataforma.

La Demanda Continua de Datos para LLM

En esencia, la cadena de suministro de datos para LLM es un ciclo de autorefuerzo. Nomad Data emplea LLM para identificar nuevos proveedores de datos y posteriormente ayuda a los usuarios a localizar la información que requieren. Estos datos se utilizan luego con APIs de LLM para entrenamiento e inferencia. "Los LLM son cruciales para nuestro negocio", enfatizó Schneider. "A medida que reunimos más datos textuales, aprendemos continuamente a utilizar estos variados conjuntos de datos."

Los datos de entrenamiento de IA son solo una pequeña fracción del mercado total, siendo la inferencia de LLM y el entrenamiento personalizado las oportunidades más emocionantes. Schneider comentó: "Ahora puedo adquirir datos que previamente no tenían valor, lo cual será fundamental para construir mi negocio, gracias a estas nuevas tecnologías."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles