Getty Images lanza el conjunto de datos visual más limpio para entrenar modelos base de IA.

Getty Images se compromete a convertirse en un socio de datos de confianza en el ámbito de la inteligencia artificial (IA). Reconocida por facilitar el descubrimiento, intercambio y adquisición de contenido visual de una amplia variedad de fotógrafos y videógrafos a nivel mundial, la empresa ha anunciado el lanzamiento de un conjunto de datos abierto de muestra en Hugging Face.

A pesar de la disponibilidad de muchos conjuntos de datos visuales en la plataforma de Hugging Face, Getty Images asegura que su oferta es especialmente confiable y comercialmente segura. Esta garantía permite a los desarrolladores empresariales integrar el conjunto de datos en sus flujos de capacitación de IA con confianza, mitigando las inquietudes sobre la calidad o problemas legales.

Como explicó Andrea Gagliano, líder de ciencia de datos y IA/ML en Getty Images: “Imagina potenciar tus capacidades de IA/ML con datos que son tanto diversos como de alta calidad, obtenidos de manera responsable. Eso es lo que proporcionamos”.

El objetivo a largo plazo de Getty es fomentar un ecosistema donde los desarrolladores de IA prefieran utilizar contenido con licencia oficial de su plataforma para entrenar sus modelos.

¿Qué Incluye el Conjunto de Datos de Getty Images?

Los desarrolladores a menudo enfrentan desafíos al lidiar con datos mal obtenidos y de baja calidad durante el entrenamiento de modelos de IA/ML. Para resolver esto, suelen invertir mucho tiempo en limpiar y enriquecer sus conjuntos de datos, eliminando duplicados, archivos dañados y contenido irrelevante como imágenes de celebridades, marcas registradas, imágenes de baja resolución y materiales sin metadatos adecuados.

Este proceso laborioso puede resultar ineficiente y generar disputas legales, ya que materiales dañinos o protegidos por derechos de autor pueden incluirse accidentalmente en los resultados de los modelos.

El conjunto de datos abierto de Getty Images busca superar estos obstáculos proporcionando una colección curada de imágenes de alta calidad en 15 categorías. “Este conjunto de datos de muestra incluye 3,750 imágenes de categorías como abstractos, entornos construidos, negocios, educación, salud, industria, naturaleza, ilustraciones y viaje”, detalló Gagliano.

Contenido Limpio y Curado

El conjunto de datos proviene exclusivamente de la biblioteca creativa de Getty, lo que garantiza que todas las imágenes sean comercialmente seguras para su uso. Los desarrolladores pueden aprovechar este conjunto curado sin las cargas de limpieza o enriquecimiento, ya que está diseñado específicamente para el entrenamiento en aprendizaje automático, presentando imágenes de alta resolución y metadatos estructurados ricos, libres de elementos no deseados como contenido para adultos. Gagliano lo describe como el “conjunto de datos más limpio y de mayor calidad” disponible para entrenar modelos de aprendizaje automático.

Condiciones de Uso

Aunque el conjunto de datos de muestra está abierto para su uso, ciertas condiciones aseguran que el contenido con licencia se utilice de manera responsable en aplicaciones comerciales y investigación académica. Las restricciones incluyen:

- No redistribuir el conjunto de datos

- No desarrollar modelos o software que recree o genere reproducciones del contenido del conjunto de datos

- No crear productos o servicios que compitan directamente con Getty Images

- No usar identificadores biométricos derivados del conjunto de datos

- Cumplimiento de todas las leyes y regulaciones pertinentes

A través de esta iniciativa, Getty Images busca involucrar a la comunidad de desarrolladores, destacando la amplia gama de contenido que ofrece y posicionándose como un “socio de confianza” para datos con licencia de alta calidad para un entrenamiento de IA responsable. Gagliano enfatiza: “Nuestro objetivo es demostrar que es posible acomodar la licenciamiento para todo el contenido necesario para entrenar modelos de IA funcionales, respetando la propiedad intelectual de los creadores”. Los desarrolladores que buscan datos adicionales pueden comunicarse con Getty Images para opciones de licenciamiento personalizadas.

Este enfoque garantiza que los creadores de contenido original reciban una compensación anual, siguiendo un modelo que Getty Images también aplicó a su herramienta de generación de imágenes por IA, desarrollada en colaboración con Nvidia.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles