En una preocupante tendencia en la industria, se alega que NVIDIA ha recopilado grandes cantidades de contenido con derechos de autor para sus iniciativas de entrenamiento de IA. El lunes, Samantha Cole de 404 Media informó que el gigante tecnológico, valorado en 2.4 billones de dólares, instruyó a sus empleados a descargar videos de plataformas como YouTube y Netflix para alimentar sus proyectos comerciales de IA. Esta acción refleja una mentalidad más amplia de "moverse rápido y romper cosas" entre las empresas tecnológicas que compiten por la dominación en el volátil sector de la IA.
Los esfuerzos de entrenamiento se centraron en la creación de modelos para el generador de mundos 3D Omniverse de NVIDIA, sistemas de vehículos autónomos y tecnologías de "humanos digitales". Un portavoz afirmó que la investigación de la empresa cumple con la ley de derechos de autor, argumentando que las leyes de propiedad intelectual (PI) solo protegen expresiones específicas, no hechos, ideas o datos. Compararon esta práctica con el derecho de un individuo a aprender de diversas fuentes para crear nuevas expresiones.
Sin embargo, YouTube no está de acuerdo. El portavoz Jack Malon citó un artículo de Bloomberg de abril en el que el CEO Neal Mohan afirmó que el uso de videos de YouTube para entrenamiento de IA violaría claramente los términos de servicio de la plataforma. Esta declaración sigue a controversias anteriores donde OpenAI entrenó su generador de texto a video Sora con contenido de YouTube sin autorización. En la misma línea, informes recientes indicaron que Runway AI también participó en prácticas similares.
Empleados de NVIDIA que expresaron preocupaciones éticas y legales fueron informados por la gerencia que la iniciativa había sido aprobada a los más altos niveles de la compañía. Ming-Yu Liu, vicepresidente de investigación, enfatizó que “esta es una decisión ejecutiva” y confirmó que tenían "aprobación general para todos los datos". Otros dentro de la empresa describieron la práctica como un “tema legal abierto” que se abordaría más adelante.
Esta situación recuerda el viejo mantra de Facebook (Meta), que también prosperó al romper límites, especialmente en la privacidad del usuario. Además del contenido de YouTube y Netflix, NVIDIA supuestamente instruyó a su personal a entrenar con conjuntos de datos como MovieNet, bibliotecas internas de videojuegos y repositorios de GitHub como WebVid (ahora eliminado tras un cese y desistimiento) e InternVid-10M, este último con 10 millones de IDs de videos de YouTube.
Algunos de los contenidos que NVIDIA supuestamente utilizó estaban destinados solo para uso académico o no comercial. Por ejemplo, la biblioteca HD-VG-130M de 130 millones de videos de YouTube incluye una licencia de uso que lo restringe a investigación académica. A pesar de esto, NVIDIA supuestamente desestimó las preocupaciones sobre estos términos académicos, afirmando que los datos eran válidos para sus ambiciones comerciales de IA.
Para evitar la detección por parte de YouTube, NVIDIA alegadamente utilizó máquinas virtuales (VM) con direcciones IP rotativas para las descargas. Cuando un empleado sugirió utilizar una herramienta de rotación de IP de terceros, otro respondió que “reiniciar una instancia de máquina virtual da una nueva IP pública”, lo que indica que la detección no era un problema.