Uma tendência preocupante na indústria aponta que a NVIDIA supostamente coletou grandes quantidades de conteúdo protegido por direitos autorais para suas iniciativas de treinamento em IA. Na segunda-feira, Samantha Cole, da 404 Media, reportou que a gigante tecnológica, avaliada em US$ 2,4 trilhões, orientou funcionários a baixar vídeos de plataformas como YouTube e Netflix para impulsionar seus projetos comerciais de IA. Essa ação reflete uma mentalidade mais ampla de “mover rápido e quebrar coisas” entre empresas de tecnologia que buscam dominar o volátil setor de IA.
Os esforços de treinamento estavam focados na criação de modelos para o gerador de mundos 3D Omniverse da NVIDIA, sistemas de veículos autônomos e tecnologias de "humanos digitais". Um porta-voz afirmou que a pesquisa da empresa está em conformidade com a lei de direitos autorais, argumentando que as leis de propriedade intelectual (PI) protegem apenas expressões específicas, e não fatos, ideias ou dados. Eles compararam essa prática ao direito do indivíduo de aprender com várias fontes para criar novas expressões.
No entanto, o YouTube discorda. O porta-voz Jack Malon mencionou um artigo da Bloomberg de abril, no qual o CEO Neal Mohan afirmou que o uso de vídeos do YouTube para treinamento de IA violaria claramente os termos de serviço da plataforma. Essa afirmação segue-se a polêmicas anteriores, onde a OpenAI treinou seu gerador de texto para vídeo Sora com conteúdo do YouTube sem autorização. Recentes reportagens também indicaram que a Runway AI adotou práticas semelhantes.
Funcionários da NVIDIA que expressaram preocupações éticas e legais foram informados pela gestão de que a iniciativa havia sido aprovada nos níveis mais altos da empresa. Ming-Yu Liu, vice-presidente de pesquisa, enfatizou que “essa é uma decisão executiva” e confirmou que tinham "aprovação abrangente para todos os dados". Outros dentro da empresa descreveram a prática como uma “questão legal em aberto” a ser tratada futuramente.
Essa situação remete ao velho mantra do Facebook (Meta), que também prosperou ao ultrapassar limites, especialmente na privacidade do usuário. Além de conteúdo do YouTube e Netflix, a NVIDIA alegadamente instruiu sua equipe a treinar em conjuntos de dados como MovieNet, bibliotecas internas de videogames e repositórios do GitHub, como WebVid (agora removido após um aviso) e InternVid-10M, este último contendo 10 milhões de IDs de vídeos do YouTube.
Parte do conteúdo que a NVIDIA supostamente utilizou estava designado apenas para uso acadêmico ou não comercial. Por exemplo, a biblioteca HD-VG-130M de 130 milhões de vídeos do YouTube inclui uma licença de uso restringindo-a à pesquisa acadêmica. Apesar disso, a NVIDIA teria ignorado preocupações relacionadas a esses termos acadêmicos, alegando que os dados eram adequados para suas ambições comerciais em IA.
Para evitar a detecção pelo YouTube, a NVIDIA supostamente utilizou máquinas virtuais (VMs) com endereços IP rotativos para os downloads. Quando um funcionário sugeriu utilizar uma ferramenta de rotação de IP de terceiros, outro contrapôs que “reiniciar uma instância de máquina virtual gera um novo IP público,” indicando que a detecção não era um problema.