Expansión significativa de uno de los conjuntos de datos de entrenamiento de IA más grandes del mundo promete mejorar la calidad y el tamaño.

Los enormes conjuntos de datos de entrenamiento de IA, a menudo denominados corpora, son considerados "la columna vertebral de los modelos de lenguaje de gran tamaño" (LLMs). En 2023, EleutherAI se destacó por crear uno de los mayores corpora de texto de código abierto en el mundo, el Pile de 825 GB. Esta organización, una asociación sin fines de lucro formada en 2020 como un colectivo en Discord para explorar el GPT-3 de OpenAI, ha enfrentado críticas debido a las crecientes preocupaciones legales y éticas sobre los conjuntos de datos utilizados para entrenar LLMs populares, como el GPT-4 de OpenAI y Llama de Meta.

EleutherAI ha sido mencionada en varias demandas centradas en la IA generativa. Un caso destacado, presentado en octubre por el exgobernador de Arkansas Mike Huckabee y varios autores, afirmaba que sus libros estaban incluidos en Books3, un conjunto de datos controvertido que abarca más de 180,000 obras y que contribuyó al proyecto Pile. Books3 fue cargado originalmente en 2020 por Shawn Presser y fue retirado en agosto de 2023 tras una notificación legal de un grupo danés de lucha contra la piratería.

Pese a estos desafíos, EleutherAI está desarrollando una versión actualizada del conjunto de datos Pile, en colaboración con instituciones como la Universidad de Toronto y el Allen Institute for AI, así como investigadores independientes. Stella Biderman, directora ejecutiva de EleutherAI, y Aviya Skowron, jefa de política y ética, revelaron en una entrevista conjunta que se espera que el nuevo Pile se finalice en unos meses.

Según Biderman, el nuevo Pile será significativamente más grande y "sustancialmente mejor" que su predecesor. "Habrá muchos nuevos datos", enfatizó, subrayando la inclusión de información no vista anteriormente. El nuevo conjunto de datos presentará datos más recientes en comparación con el original, que se lanzó en diciembre de 2020 y se utilizó para entrenar modelos como la suite Pythia y la suite Stable LM de Stability AI. Con las lecciones aprendidas tras el entrenamiento de casi una docena de LLMs, Biderman destacó los métodos mejorados de preprocesamiento de datos: "Cuando creamos el Pile, nunca habíamos entrenado un LLM. Ahora hemos obtenido valiosas ideas sobre cómo refinar los datos para un uso óptimo en LLMs".

El dataset actualizado también enfatizará una mejor calidad y una inclusión de datos más diversos. "Planeamos incorporar muchos más libros y una variedad más amplia de obras de no ficción no académicas", explicó.

El Pile original estaba compuesto por 22 sub-datasets, incluidos Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, subtítulos de YouTube e incluso correos electrónicos de Enron. Biderman observó que el Pile sigue siendo el conjunto de datos de entrenamiento para LLM más documentado a nivel mundial. La iniciativa tenía como objetivo construir un amplio conjunto de datos compuesto por miles de millones de fragmentos de texto, rivalizando con la escala del entrenamiento de OpenAI para el GPT-3.

"Cuando se presentó en 2020, el Pile jugó un papel crucial porque era único", afirmó Biderman. En ese momento, solo existía un corpus de texto grande disponible públicamente, el C4, que Google utilizaba para varios modelos de lenguaje. "Pero C4 es más pequeño y menos diverso", señaló, describiéndolo como una versión refinada de Common Crawl.

La estrategia de EleutherAI para crear el Pile implicó una curaduría selectiva de información y temas esenciales para enriquecer el conocimiento del modelo. "Más del 75% del Pile fue curado de dominios específicos", indicó. "Nuestro objetivo era proporcionar percepciones significativas sobre el mundo".

Skowron explicó la postura de EleutherAI sobre el entrenamiento de modelos y el uso justo, afirmando que "los LLMs actuales dependen de datos protegidos por derechos de autor". Un objetivo del proyecto Pile v2 es abordar problemas relacionados con derechos de autor y licencias de datos. El nuevo conjunto de datos Pile incluirá obras de dominio público, textos con licencia de Creative Commons y documentos gubernamentales, asegurando el cumplimiento de los estándares legales. Además, contará con conjuntos de datos para los cuales se han obtenido permisos explícitos de los titulares de derechos.

Las críticas a los conjuntos de datos de entrenamiento de IA ganaron impulso tras el lanzamiento de ChatGPT en noviembre de 2022, lo que generó preocupaciones sobre infracciones de derechos de autor. La serie de demandas sobre IA generativa que surgieron provino de artistas, escritores y editores, culminando en importantes desafíos legales, incluidos uno de The New York Times contra OpenAI y Microsoft.

El debate sobre los datos de entrenamiento de IA es complejo. Biderman y Skowron subrayaron la importancia de abordar casos moralmente problemáticos, como el descubrimiento de imágenes de abuso sexual infantil en el conjunto de datos LAION-5B, lo que llevó recientemente a su eliminación. Biderman destacó que la metodología utilizada para señalar dicho contenido puede no ser legalmente accesible para organizaciones como LAION.

Además, reconocieron las preocupaciones de los creativos cuyos trabajos se utilizaron para entrenar modelos de IA, enfatizando que muchos lo hicieron bajo licencias permisivas, sin anticipar la evolución de la IA. "Con el tiempo, muchos habrían elegido diferentes opciones de licencia," reflexionó Biderman.

Mientras que los conjuntos de datos de entrenamiento de IA solían ser herramientas de investigación, han evolucionado a productos comerciales. "Ahora, el propósito principal es la fabricación", dijo Biderman, resaltando la creciente conciencia sobre las implicaciones comerciales del entrenamiento de modelos de IA.

Curiosamente, Biderman y Skowron argumentaron que los modelos de IA entrenados con conjuntos de datos abiertos como el Pile son más seguros, ya que una mayor visibilidad de los datos fomenta el uso ético en diversos contextos. "Para lograr muchos objetivos de política, debe haber transparencia, incluyendo documentación exhaustiva del entrenamiento", dijo Skowron.

A medida que EleutherAI continúa perfeccionando el Pile, Biderman expresó optimismo sobre el lanzamiento de los nuevos modelos pronto. "Hemos estado trabajando en esto durante aproximadamente un año y medio, y tengo muchas ganas de ver los resultados. Anticipo que hará una pequeña pero significativa diferencia".

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles