Como OpenAI e Meta Aproveitam Vídeos do YouTube para Treinamento de IA: Insights sobre Tendências Emergentes da Indústria

À medida que a tecnologia de inteligência artificial (IA) avança rapidamente, os dados se tornaram um motor crítico no desenvolvimento de modelos de IA. No entanto, um relatório recente do Wall Street Journal destaca os desafios sem precedentes enfrentados pelas empresas de IA na obtenção de dados de treinamento de alta qualidade. Hoje, o The New York Times explora as estratégias utilizadas por essas empresas para lidar com essa questão complexa, especialmente as intrincadas leis de copyright da IA.

A OpenAI, líder no setor de IA, tem uma necessidade premente de dados de treinamento. Segundo relatos, a empresa transcreveu mais de um milhão de horas de vídeos do YouTube para desenvolver seu avançado modelo de linguagem GPT-4, utilizando sua tecnologia de transcrição de áudio Whisper. A OpenAI também agregou diversos outros recursos de dados, incluindo códigos do GitHub, bancos de dados de jogadas de xadrez e conteúdo educacional da Quizlet.

Essa abordagem gerou controvérsias legais. Embora a OpenAI afirme que o uso de dados está em conformidade com os princípios de uso justo, o The Times revela que o presidente da OpenAI, Greg Brockman, esteve pessoalmente envolvido no processo de coleta de dados, complicando ainda mais as questões de copyright.

Em entrevista ao The Verge, um porta-voz da OpenAI afirmou que a empresa organiza conjuntos de dados únicos para cada modelo, visando aprimorar sua compreensão do mundo e manter uma pesquisa competitiva em escala global. O porta-voz também mencionou que a OpenAI está explorando a geração de dados sintéticos para reduzir sua dependência de fontes externas.

O Google expressou preocupação com as práticas da OpenAI, com um porta-voz afirmando por e-mail que a empresa notou relatos não verificados sobre as atividades da OpenAI, ressaltando que o arquivo robots.txt e os termos de serviço do Google proíbem a coleta ou o download não autorizado de conteúdo do YouTube.

O CEO do YouTube, Neal Mohan, em uma entrevista recente, indicou que, embora não haja evidências diretas de que a OpenAI usou vídeos do YouTube para treinar o modelo Sora, tais ações violariam os termos de serviço do YouTube.

Simultaneamente, a Meta enfrenta seus próprios desafios de disponibilidade de dados. Segundo o The Times, à medida que a equipe de IA da Meta se esforça para alcançar a OpenAI, está considerando cenários envolvendo o uso não autorizado de obras protegidas. Para expandir seus conjuntos de dados, a Meta revisou uma vasta gama de livros, ensaios, poesias e artigos de notícias em inglês, discutindo possíveis pagamentos pela licenciamento de livros ou pela aquisição direta de grandes editoras.

Esses desenvolvimentos ressaltam os desafios legais e éticos que a indústria de IA enfrenta na coleta e uso de dados. Com o progresso da tecnologia, surge uma pergunta urgente: como os modelos de IA podem evoluir respeitando as proteções de copyright? É essencial que as empresas de IA e os órgãos reguladores colaborem para estabelecer regulações mais claras e justas que promovam o desenvolvimento saudável e sustentável da tecnologia de IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles