Recentemente, uma pesquisa da Proof News revelou que várias grandes empresas de tecnologia em todo o mundo utilizaram um conjunto de dados com mais de 173.000 transcrições de vídeos do YouTube sem permissão para treinar seus modelos de IA. Esse conjunto, criado pela organização sem fins lucrativos EleutherAI, inclui transcrições de vídeos de mais de 48.000 canais, com empresas como Apple, NVIDIA e Anthropic entre as que o utilizam. Essa investigação destaca um problema crítico: muitos conjuntos de dados fundamentais para tecnologias de IA têm sido usados sem o consentimento ou a compensação justa dos criadores de conteúdo.
Embora o conjunto de dados não contenha os vídeos ou imagens reais do YouTube, ele abrange transcrições de criadores conhecidos como Marques Brownlee e MrBeast, além de conteúdo de grandes organizações de mídia, incluindo The New York Times, BBC e ABC News. O conteúdo da Engadget também está incluído.
Marques Brownlee expressou suas preocupações na plataforma de mídia social X, afirmando: "A Apple obtém dados de IA de várias empresas, incluindo uma quantidade significativa de texto de transcrições extraídas de vídeos do YouTube, incluindo os meus." Ele enfatizou: "Esse tem sido um problema de longa data."
Um porta-voz do Google reiterou à Engadget que os comentários do CEO do YouTube, Neal Mohan, continuam válidos; usar dados do YouTube para treinar modelos de IA viola os termos de serviço da plataforma. Nem Apple, NVIDIA, Anthropic nem EleutherAI responderam aos questionamentos da Engadget.
A falta de transparência em relação aos dados utilizados pelas empresas de IA para treinamento de modelos permanece uma preocupação significativa. Recentemente, artistas e fotógrafos criticaram a Apple por não divulgar as fontes dos dados de treinamento para sua nova tecnologia de IA generativa, Apple Intelligence, que será implementada em milhões de dispositivos Apple.
Como a maior plataforma de vídeo online, o YouTube não apenas oferece dados de transcrição, mas também fornece conteúdo de áudio e vídeo, tornando-se um recurso inestimável para o treinamento de IA. No início deste ano, Mira Murati, CTO da OpenAI, evitou perguntas em uma entrevista ao Wall Street Journal sobre se vídeos do YouTube foram usados para treinar a ferramenta de IA da empresa, Sora, insistindo que os dados utilizados eram de domínio público ou licenciados. O CEO da Alphabet, Sundar Pichai, também afirmou que treinar modelos de IA com dados do YouTube violaria os termos de serviço da plataforma.
Para verificar se a transcrição de um canal específico ou vídeo está incluída no conjunto de dados mencionado, visite a ferramenta de consulta da Proof News.