Uma investigação da Proof News revelou que algumas das maiores empresas de tecnologia, como Apple, NVIDIA e Anthropic, treinaram seus modelos de IA utilizando um conjunto de dados que inclui transcrições de mais de 173.000 vídeos do YouTube—sem obter permissão dos criadores. Este conjunto de dados, compilado pela organização sem fins lucrativos EleutherAI, apresenta transcrições de canais que representam mais de 48.000 criadores, incluindo figuras proeminentes como Marques Brownlee e MrBeast, além de grandes organizações de notícias como The New York Times, BBC e ABC News.
A investigação destaca uma realidade preocupante no desenvolvimento de IA: grande parte da tecnologia depende de dados extraídos de criadores sem o seu consentimento ou compensação. Embora o conjunto de dados não contenha vídeos ou imagens, ele inclui contribuições substanciais de influentes criadores de conteúdo.
Marques Brownlee expressou suas preocupações nas redes sociais, apontando que a Apple obteve dados de várias empresas, uma das quais extraiu transcrições de vídeos do YouTube, incluindo os dele. Ele afirmou: “Esse será um problema em evolução por muito tempo”, reconhecendo o complexo cenário ético em torno do uso de dados na IA.
Um porta-voz do Google reiterou que as declarações do CEO do YouTube, Neal Mohan, sobre a violação dos termos de serviço da plataforma por empresas que utilizam dados do YouTube para treinamento de IA ainda são válidas. Tentativas repetidas de obter comentários da Apple, NVIDIA, Anthropic e EleutherAI não tiveram resposta.
A transparência em relação aos dados utilizados pelas empresas de IA continua sendo um desafio. Recentemente, a Apple enfrentou críticas de artistas e fotógrafos por não divulgar a origem dos dados de treinamento para seu futuro recurso de IA generativa, Apple Intelligence. Em resposta, a Apple esclareceu que seu modelo OpenELM—criado estritamente para pesquisa—não é a base de suas capacidades de IA ou aprendizado de máquina. A empresa afirmou que seus modelos de IA são treinados com "dados licenciados" e informações disponíveis publicamente coletadas por crawlers da web.
O YouTube, como o maior repositório de vídeos do mundo, fornece uma abundância de transcrições, áudio, vídeo e imagens, tornando-se um recurso atrativo para o desenvolvimento de modelos de IA. No início deste ano, a CTO da OpenAI, Mira Murati, evitou perguntas sobre se vídeos do YouTube foram utilizados para treinar Sora, a próxima ferramenta de geração de vídeo da OpenAI, afirmando que os dados eram publicamente disponíveis ou licenciados.
Para aqueles interessados em verificar se as legendas de seus vídeos do YouTube ou de seus canais favoritos estão incluídas neste conjunto de dados, visite a ferramenta de consulta da Proof News.