Expansión significativa de uno de los conjuntos de datos de entrenamiento de IA más grandes del mundo promete mejorar la calidad y el tamaño.

Home Noticias de IA Expansión significativa de uno de los conjuntos de datos de entrenamiento de IA más grandes del mundo promete mejorar la calidad y el tamaño.

Los enormes conjuntos de datos de entrenamiento de IA, a menudo denominados corpora, son considerados "la columna vertebral de los modelos de lenguaje de gran tamaño" (LLMs). En 2023, EleutherAI se destacó por crear uno de los mayores corpora de texto de código abierto en el mundo, el Pile de 825 GB. Esta organización, una asociación sin fines de lucro formada en 2020 como un colectivo en Discord para explorar el GPT-3 de OpenAI, ha enfrentado críticas debido a las crecientes preocupaciones legales y éticas sobre los conjuntos de datos utilizados para entrenar LLMs populares, como el GPT-4 de OpenAI y Llama de Meta.

EleutherAI ha sido mencionada en varias demandas centradas en la IA generativa. Un caso destacado, presentado en octubre por el exgobernador de Arkansas Mike Huckabee y varios autores, afirmaba que sus libros estaban incluidos en Books3, un conjunto de datos controvertido que abarca más de 180,000 obras y que contribuyó al proyecto Pile. Books3 fue cargado originalmente en 2020 por Shawn Presser y fue retirado en agosto de 2023 tras una notificación legal de un grupo danés de lucha contra la piratería.

Pese a estos desafíos, EleutherAI está desarrollando una versión actualizada del conjunto de datos Pile, en colaboración con instituciones como la Universidad de Toronto y el Allen Institute for AI, así como investigadores independientes. Stella Biderman, directora ejecutiva de EleutherAI, y Aviya Skowron, jefa de política y ética, revelaron en una entrevista conjunta que se espera que el nuevo Pile se finalice en unos meses.

Según Biderman, el nuevo Pile será significativamente más grande y "sustancialmente mejor" que su predecesor. "Habrá muchos nuevos datos", enfatizó, subrayando la inclusión de información no vista anteriormente. El nuevo conjunto de datos presentará datos más recientes en comparación con el original, que se lanzó en diciembre de 2020 y se utilizó para entrenar modelos como la suite Pythia y la suite Stable LM de Stability AI. Con las lecciones aprendidas tras el entrenamiento de casi una docena de LLMs, Biderman destacó los métodos mejorados de preprocesamiento de datos: "Cuando creamos el Pile, nunca habíamos entrenado un LLM. Ahora hemos obtenido valiosas ideas sobre cómo refinar los datos para un uso óptimo en LLMs".

El dataset actualizado también enfatizará una mejor calidad y una inclusión de datos más diversos. "Planeamos incorporar muchos más libros y una variedad más amplia de obras de no ficción no académicas", explicó.

El Pile original estaba compuesto por 22 sub-datasets, incluidos Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, subtítulos de YouTube e incluso correos electrónicos de Enron. Biderman observó que el Pile sigue siendo el conjunto de datos de entrenamiento para LLM más documentado a nivel mundial. La iniciativa tenía como objetivo construir un amplio conjunto de datos compuesto por miles de millones de fragmentos de texto, rivalizando con la escala del entrenamiento de OpenAI para el GPT-3.

"Cuando se presentó en 2020, el Pile jugó un papel crucial porque era único", afirmó Biderman. En ese momento, solo existía un corpus de texto grande disponible públicamente, el C4, que Google utilizaba para varios modelos de lenguaje. "Pero C4 es más pequeño y menos diverso", señaló, describiéndolo como una versión refinada de Common Crawl.

La estrategia de EleutherAI para crear el Pile implicó una curaduría selectiva de información y temas esenciales para enriquecer el conocimiento del modelo. "Más del 75% del Pile fue curado de dominios específicos", indicó. "Nuestro objetivo era proporcionar percepciones significativas sobre el mundo".

Skowron explicó la postura de EleutherAI sobre el entrenamiento de modelos y el uso justo, afirmando que "los LLMs actuales dependen de datos protegidos por derechos de autor". Un objetivo del proyecto Pile v2 es abordar problemas relacionados con derechos de autor y licencias de datos. El nuevo conjunto de datos Pile incluirá obras de dominio público, textos con licencia de Creative Commons y documentos gubernamentales, asegurando el cumplimiento de los estándares legales. Además, contará con conjuntos de datos para los cuales se han obtenido permisos explícitos de los titulares de derechos.

Las críticas a los conjuntos de datos de entrenamiento de IA ganaron impulso tras el lanzamiento de ChatGPT en noviembre de 2022, lo que generó preocupaciones sobre infracciones de derechos de autor. La serie de demandas sobre IA generativa que surgieron provino de artistas, escritores y editores, culminando en importantes desafíos legales, incluidos uno de The New York Times contra OpenAI y Microsoft.

El debate sobre los datos de entrenamiento de IA es complejo. Biderman y Skowron subrayaron la importancia de abordar casos moralmente problemáticos, como el descubrimiento de imágenes de abuso sexual infantil en el conjunto de datos LAION-5B, lo que llevó recientemente a su eliminación. Biderman destacó que la metodología utilizada para señalar dicho contenido puede no ser legalmente accesible para organizaciones como LAION.

Además, reconocieron las preocupaciones de los creativos cuyos trabajos se utilizaron para entrenar modelos de IA, enfatizando que muchos lo hicieron bajo licencias permisivas, sin anticipar la evolución de la IA. "Con el tiempo, muchos habrían elegido diferentes opciones de licencia," reflexionó Biderman.

Mientras que los conjuntos de datos de entrenamiento de IA solían ser herramientas de investigación, han evolucionado a productos comerciales. "Ahora, el propósito principal es la fabricación", dijo Biderman, resaltando la creciente conciencia sobre las implicaciones comerciales del entrenamiento de modelos de IA.

Curiosamente, Biderman y Skowron argumentaron que los modelos de IA entrenados con conjuntos de datos abiertos como el Pile son más seguros, ya que una mayor visibilidad de los datos fomenta el uso ético en diversos contextos. "Para lograr muchos objetivos de política, debe haber transparencia, incluyendo documentación exhaustiva del entrenamiento", dijo Skowron.

A medida que EleutherAI continúa perfeccionando el Pile, Biderman expresó optimismo sobre el lanzamiento de los nuevos modelos pronto. "Hemos estado trabajando en esto durante aproximadamente un año y medio, y tengo muchas ganas de ver los resultados. Anticipo que hará una pequeña pero significativa diferencia".

Microsoft y SAP lanzan soluciones innovadoras de inteligencia artificial para el comercio minorista antes del evento NRF 2024.

1X: Startup de Robótica Respaldado por OpenAI Obtiene $100 Millones en Financiación

Most people like

Thetawise

395K

Descubre los beneficios de la tutoría de matemáticas impulsada por IA, un enfoque innovador diseñado para mejorar el aprendizaje y la comprensión en esta materia. Al aprovechar la tecnología avanzada, estos sistemas inteligentes ofrecen apoyo personalizado, adaptándose a los estilos y ritmos de aprendizaje individuales. Ya sea que tengas dificultades con álgebra, geometría o cálculo avanzado, los tutores de matemáticas basados en IA pueden transformar tu experiencia educativa, haciéndola más eficiente y efectiva. ¡Abraza el futuro del aprendizaje con soluciones impulsadas por IA para mejorar tus habilidades matemáticas!

Tutoría de matemáticas AI Education Assistant

AISEO - Your AI writer for SEO

451K

AISEO es un potente asistente de escritura diseñado para crear contenido optimizado rápidamente, y cuenta con una avanzada herramienta de parafraseo. Ya sea que estés redactando entradas de blog o mejorando tu contenido web, AISEO simplifica el proceso de escritura, garantizando resultados de alta calidad en tiempo récord.

Asistente de escritura AI AI Content Generator

FAT2FIT

5.9K

Presentamos FAT2FIT: una innovadora plataforma impulsada por IA, diseñada para facilitar transformaciones corporales personalizadas acorde a tus metas de fitness únicas. Con tecnología de vanguardia y orientación experta, empoderamos a las personas para lograr su físico ideal de manera más efectiva que nunca.

transformación corporal Other

NSQ Assessment

12.3K

Descubre cómo evaluar la regulación de tu sistema nervioso sin ningún costo.

autoevaluación Other

Find AI tools in YBX