Alimentando a la Bestia: Cómo un Mercado de Datos en Expansión Impulsa la Demanda Inagotable de LLMs

Home Noticias de IA Alimentando a la Bestia: Cómo un Mercado de Datos en Expansión Impulsa la Demanda Inagotable de LLMs

Updated on octubre 29 2024

La semana pasada, discutí las percepciones de Mark Zuckerberg sobre la estrategia de IA de Meta, resaltando una ventaja significativa: un extenso y en constante expansión conjunto de datos interno que entrena sus modelos Llama. Zuckerberg mencionó que Facebook e Instagram reúnen "cientos de miles de millones de imágenes de uso público y decenas de miles de millones de videos públicos", superando el tamaño del conjunto de datos de Common Crawl. Los usuarios también comparten una cantidad masiva de publicaciones de texto públicas en estas plataformas.

Las Necesidades Insaciables de Datos de la IA

Sin embargo, los datos para entrenar modelos como los de Meta, OpenAI o Anthropic son solo el punto de partida para entender los requerimientos de datos de los grandes modelos de lenguaje (LLMs) de hoy. La demanda continua de inferencia—usar LLMs para diversas aplicaciones—crea un ciclo interminable de consumo de datos. Es similar al juego clásico Hungry Hungry Hippos, donde los modelos de IA recopilan datos de forma constante para funcionar eficazmente.

Conjuntos de Datos Específicos para Una Inferencia Efectiva de IA

Brad Schneider, fundador y CEO de Nomad Data, enfatizó que "[la inferencia es] el mercado más grande, y creo que la gente no se da cuenta de eso". Nomad Data opera como una plataforma de descubrimiento de datos, conectando a más de 2,500 proveedores de datos con empresas que buscan conjuntos de datos específicos para sus necesidades de inferencia de LLM.

En lugar de actuar como un corredor de datos, Nomad permite a las compañías buscar datos en lenguaje natural. Por ejemplo, un usuario podría solicitar "un flujo de datos de cada techo que esté en construcción en Estados Unidos cada mes". Schneider explicó que muchos usuarios no conocen la nomenclatura exacta de los conjuntos de datos que requieren. Los LLM de Nomad ayudan a identificar proveedores relevantes que pueden suministrarlos.

Coincidencias de Datos Instantáneas

La rápida coincidencia de demanda y oferta ejemplifica la efectividad de la plataforma. Schneider recordó a una compañía de seguros que listó sus datos en Nomad: casi de inmediato, otra empresa buscaba datos detallados sobre accidentes automovilísticos, sin saber que esa información pertenecía a los "datos de seguros". "Esto es un poco la magia", comentó Schneider.

La Importancia de la Alimentación Continua de Datos

Mientras que los datos de entrenamiento son esenciales, Schneider destacó que los modelos se entrenan infrecuentemente, y la inferencia ocurre de forma continua—en ocasiones miles de veces por minuto. Esta demanda constante de datos frescos es crucial para las empresas que aprovechan la IA generativa, especialmente para crear insights valiosos. "Necesitas alimentarlo para que haga algo interesante", explicó.

Identificar el "alimento" de datos adecuado sigue siendo un desafío para las grandes empresas. Si bien utilizar datos internos es crítico, incorporar conjuntos de datos externos de alta calidad ha sido históricamente complicado. Las organizaciones a menudo tienen dificultades para extraer información útil de vastos archivos, como millones de PDFs. Afortunadamente, los LLM pueden ahora analizar datos textuales de diversas fuentes—incluidos registros de consumidores y archivos gubernamentales—de manera rápida.

Desbloqueando el Valor de Datos Anteriormente Inexplorados

Schneider comparó esta transformación con descubrir "un tesoro enterrado". Datos antes considerados inútiles se han vuelto altamente valiosos. Además, los datos son esenciales para personalizar el entrenamiento de LLM. Por ejemplo, para desarrollar un modelo que reconozca recibos japoneses, es necesario un conjunto de datos de tales recibos. De manera similar, crear un modelo que identifique anuncios en imágenes de campos de fútbol requiere un conjunto de datos de videos pertinentes.

Empresas de Medios Monetizando Sus Datos

Las grandes empresas de medios también están empezando a licenciar sus datos a firmas de LLM. OpenAI se asoció recientemente con Axel Springer, mientras que las negociaciones con el New York Times terminaron en una demanda. Nomad Data está colaborando activamente con medios y otras empresas para expandir su red de proveedores de datos. Schneider informó que Nomad ha involucrado a varias corporaciones—desde fabricantes automotrices hasta compañías de seguros—que están listando sus datos en la plataforma.

La Demanda Continua de Datos para LLM

En esencia, la cadena de suministro de datos para LLM es un ciclo de autorefuerzo. Nomad Data emplea LLM para identificar nuevos proveedores de datos y posteriormente ayuda a los usuarios a localizar la información que requieren. Estos datos se utilizan luego con APIs de LLM para entrenamiento e inferencia. "Los LLM son cruciales para nuestro negocio", enfatizó Schneider. "A medida que reunimos más datos textuales, aprendemos continuamente a utilizar estos variados conjuntos de datos."

Los datos de entrenamiento de IA son solo una pequeña fracción del mercado total, siendo la inferencia de LLM y el entrenamiento personalizado las oportunidades más emocionantes. Schneider comentó: "Ahora puedo adquirir datos que previamente no tenían valor, lo cual será fundamental para construir mi negocio, gracias a estas nuevas tecnologías."

Transformando los Recursos Humanos: ADP Assist Trae Innovación en IA

Roblox Supera las Barreras Lingüísticas con Traducción de Chat en Tiempo Real Impulsada por IA

Most people like

Sora Video AI

39.9K

Convierte fácilmente texto en videos cautivadores en solo unos clics.

creación de video Text to Video

BeforeSunset AI

92.3K

BeforeSunset AI es un innovador planificador diario impulsado por inteligencia artificial, diseñado para optimizar y mejorar tu programación diaria. Con sus funciones inteligentes, esta herramienta potente facilita la organización de tu día como nunca antes.

Planificador de IA AI Productivity Tools

LLM Price Check

66.5K

¡Compara rápidamente los precios de la API LLM ahora!

API de LLM Large Language Models (LLMs)

EverSQL

48.3K

Presentamos el Optimizador de Consultas SQL Potenciado por IA: Revoluciona el rendimiento de tu base de datos con nuestra herramienta de vanguardia diseñada para mejorar la eficiencia de las consultas SQL. Al aprovechar técnicas avanzadas de inteligencia artificial, nuestro optimizador analiza y ajusta tus consultas, garantizando una recuperación de datos más rápida y una mejor productividad general. Desbloquea todo el potencial de tu base de datos y optimiza tus operaciones con nuestra solución innovadora.

Optimización de consultas SQL AI SQL Query Builder

Find AI tools in YBX