MIT y Cohere se Unen para Lanzar una Plataforma de Seguimiento y Filtrado de Conjuntos de Datos de IA Auditados

Investigadores del MIT, Cohere for AI y 11 instituciones más lanzaron hoy la Plataforma de Procedencia de Datos para abordar el urgente problema de la transparencia en los datos de la inteligencia artificial (IA). En esta iniciativa, auditaron y rastrearon casi 2,000 de los conjuntos de datos de ajuste fino más utilizados, que han sido descargados colectivamente decenas de millones de veces y sirven como base para muchos avances significativos en el procesamiento del lenguaje natural (NLP). Según Shayne Longpre, candidato a doctorado en el MIT Media Lab, y Sara Hooker, directora de Cohere for AI, "el resultado de este esfuerzo multidisciplinario es la auditoría más grande de conjuntos de datos de IA hasta la fecha". Por primera vez, estos conjuntos de datos incluyen etiquetas que identifican las fuentes de datos originales, múltiples re-licencias, creadores y otras propiedades relevantes.

Para mejorar la usabilidad, el Data Provenance Explorer, una plataforma interactiva, permite a los desarrolladores rastrear y filtrar miles de conjuntos de datos según criterios legales y éticos. Este recurso también permite a académicos y periodistas investigar la composición y el linaje de los conjuntos de datos de IA más populares.

Colecciones de Conjuntos de Datos Ignoran el Linaje

La iniciativa culminó en un artículo titulado "The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI", que destaca una preocupación importante: "Las colecciones de conjuntos de datos ampliamente utilizadas a menudo se ven como monolíticas en lugar de reconocer su diversa línea de fuentes. Estos conjuntos de datos son frecuentemente raspados o generados, curados y anotados a través de múltiples ciclos de re-empaquetado y licencias por diversos profesionales".

Los desincentivos para reconocer este linaje surgen de la gran escala de la recolección de datos, que complica el proceso de atribución, junto con un mayor escrutinio de derechos de autor. Como resultado, ha disminuido el uso de Datasheets y ha habido una falta de divulgación sobre las fuentes de entrenamiento, lo que ha llevado a una comprensión reducida de los datos de entrenamiento. Esta falta de conocimiento puede resultar en fugas de datos entre los conjuntos de datos de entrenamiento y prueba, exposición de información personal identificable (PII), sesgos o comportamientos no intencionados y, en última instancia, modelos de menor calidad de lo esperado. Además, estas brechas representan riesgos éticos y legales significativos, como conflictos entre las versiones de modelos y los términos de uso de los datos. Dado que el entrenamiento con datos es costoso y mayormente irreversible, estos desafíos no se resuelven fácilmente.

Mayor Scrutinio de los Conjuntos de Datos de Entrenamiento en 2023

A lo largo de 2023, la cobertura mediática ha destacado problemas relacionados con la procedencia de datos y la transparencia de los conjuntos de datos de entrenamiento. Por ejemplo, en marzo, el CEO de Lightning AI, William Falcon, criticó el artículo de OpenAI sobre GPT-4 por "disfrazarse de investigación", subrayando su falta de detalles importantes. La sección "Alcance y Limitaciones" del informe señaló específicamente la exclusión de información sobre la arquitectura, construcción de conjuntos de datos y métodos de entrenamiento debido a preocupaciones competitivas y de seguridad en torno a modelos a gran escala como GPT-4.

En septiembre, se publicó un análisis detallado abordando los problemas de derechos de autor que afectan los datos de entrenamiento de IA generativa. El Dr. Alex Hanna, director de investigación en el Distributed AI Research Institute (DAIR), comentó sobre los desafíos urgentes que plantea la rápida proliferación de la IA generativa, afirmando que ha suscitado preocupaciones significativas sobre el uso de contenido protegido por derechos de autor recopilado sin consentimiento.

Most people like

Find AI tools in YBX