Após o explosivo anúncio no final do ano passado de que o The New York Times, um dos jornais mais icônicos do mundo, está processando a OpenAI e sua parceira Microsoft por infração de direitos autorais, a OpenAI respondeu publicamente em um post de blog, afirmando que o processo é “sem mérito”.
“No apoio ao jornalismo, colaboramos com organizações de notícias e acreditamos que a ação judicial do The New York Times é infundada”, inicia o post.
A OpenAI destaca três pontos principais:
1. Colaboramos com organizações de notícias, criando novas oportunidades.
2. Nossas práticas de treinamento se enquadram no uso justo, e oferecemos uma opção de exclusão porque isso é o correto a fazer.
3. Casos de "regurgitação" de dados de treinamento são raros, e estamos trabalhando ativamente para eliminá-los.
Essas alegações são detalhadas no post.
A questão central gira em torno dos acordos de licenciamento de conteúdo da OpenAI com outras entidades de mídia, incluindo a Axel Springer (editora do Politico e Business Insider) e a Associated Press, contrastando com sua postura anterior sobre extrair dados de sites públicos para treinamento, incluindo o conteúdo utilizado pelo GPT-3.5 e GPT-4 que alimenta o ChatGPT.
Desde a conferência de desenvolvedores DevDay em novembro de 2023, a OpenAI oferece indenização, fornecendo proteções legais para organizações que utilizam seus produtos de IA.
Como chegamos aqui?
O NYT iniciou o processo no final de dezembro de 2023 no Tribunal do Distrito Sul de Nova York. O jornal alega que a OpenAI treinou seus modelos com artigos protegidos por direitos autorais sem a devida autorização ou compensação, citando casos específicos onde o ChatGPT gerou texto similar a artigos do NYT, o que, segundo eles, constitui uma violação direta de direitos autorais.
O processo surgiu após meses de negociações frustradas entre a OpenAI e representantes do NYT sobre um acordo de licenciamento de conteúdo.
A OpenAI afirma que o uso de materiais disponíveis publicamente na internet se qualifica como uso justo, uma visão corroborada por precedentes legais de longa data. A empresa mantém que implementou um processo simples de exclusão para editores, que o The New York Times utilizou em agosto de 2023, permitindo-lhes restringir o acesso ao seu site.
No entanto, críticos observam que esse mecanismo de exclusão foi introduzido somente após o lançamento do ChatGPT em novembro de 2022, deixando pouca oportunidade para que os editores protegessem seus dados antes dessa data.
A OpenAI também acusa o NYT de “manipular intencionalmente prompts” para demonstrar evidências de reprodução de artigos em violação aos Termos de Serviço da OpenAI. A empresa alega que os exemplos fornecidos pelo NYT envolveram prompts manipulados, incluindo longas citações de artigos, levando a respostas desproporcionalmente similares ao conteúdo do NYT.
Apesar dessas alegações, um porta-voz da Trident DMG, que representa o NYT, reiterou a posição do jornal. Ian Crosby, advogado principal do The New York Times, afirmou: “O blog concede que a OpenAI usou o trabalho do Times para construir o ChatGPT. Isso não é uso justo em nenhum parâmetro.”
À medida que o caso avança, a OpenAI e o The New York Times apresentarão seus argumentos ao juiz do Tribunal de Distrito Federal Sidney H. Stein. Embora a data da audiência inicial ainda não esteja disponível, novos procedimentos legais provavelmente aprofundarão o debate em andamento sobre o uso de material protegido por direitos autorais pela IA.
Com o aumento de exemplos de serviços de IA reproduzindo conteúdo protegido por direitos autorais — incluindo o gerador de imagens de IA Midjourney, que enfrentou desafios legais — 2024 promete ser um ano crucial para a tecnologia de IA e suas implicações legais em relação às fontes de dados de treinamento.