Em uma entrevista exclusiva ao Wall Street Journal, a CTO da OpenAI, Mira Murati, discutiu o modelo Sora de texto para vídeo da empresa, sugerindo que ele poderia estar disponível ao público em poucos meses. A demonstração apresentou clipes impressionantes e cativantes, que despertaram curiosidade e diversão nos espectadores.
No entanto, a conversa mudou de tom quando Murati foi questionada sobre os dados de treinamento utilizados para o Sora. Ela afirmou: “Usamos dados disponíveis publicamente e licenciados”, mas teve dificuldade em esclarecer se conteúdos do YouTube, Facebook ou Instagram estavam incluídos. Embora tenha reconhecido o uso de conteúdo da Shutterstock, sua incerteza em relação a outras plataformas chamou a atenção. Sua resposta sobre o YouTube foi um “não tenho certeza”, enquanto para Facebook e Instagram, ofereceu uma afirmação vaga de que “pode haver” vídeos disponíveis publicamente, sem confirmar detalhes.
Essa ambiguidade provavelmente não agradou à equipe de relações públicas da OpenAI, especialmente considerando os processos judiciais em andamento relacionados a direitos autorais, incluindo um do New York Times. Os detalhes sobre os dados de treinamento são cruciais para muitos envolvidos—autores, fotógrafos e artistas—que buscam clareza sobre que conteúdo foi utilizado no desenvolvimento de modelos como o Sora. Segundo o The Information, a OpenAI teria utilizado dados de várias fontes online, intensificando a escrutinação sobre as práticas da empresa.
As implicações dos dados de treinamento vão além de questões legais; elas envolvem confiança e transparência. Se a OpenAI treinou com conteúdo considerado “disponível publicamente”, o que acontece se o público em geral não tiver conhecimento disso? Além disso, gigantes da tecnologia como Google e Meta também utilizam conteúdo compartilhado publicamente nas plataformas que possuem. Embora isso possa ser legalmente permissível, alertas recentes da FTC sobre mudanças silenciosas nos Termos de Serviço levantam questões sobre a conscientização do público.
O debate em torno dos dados de treinamento é fundamental para a IA generativa, e o potencial por um reconhecimento surge não apenas nos tribunais, mas também na percepção pública. Como mencionado anteriormente, a dependência de conjuntos de dados diversificados para treinar modelos de IA é uma consideração que afeta aqueles cujo trabalho criativo contribui para esses conjuntos.
Historicamente, a coleta de dados para marketing operou em uma base de troca. Os usuários fornecem dados para experiências aprimoradas, embora essa troca frequentemente beneficie desproporcionalmente os corretores de dados. Essa dinâmica muda com a IA generativa; muitos consideram a utilização de suas obras compartilhadas publicamente como exploratória, representando ameaças a empregos e criatividade.
Especialistas defendem a criação de conjuntos de dados de treinamento bem-organizados para aprimorar os modelos, enfatizando sua importância para pesquisa em vez de exploração comercial. No entanto, à medida que as pessoas se tornam mais conscientes de como seu conteúdo é utilizado para treinar modelos orientados ao lucro, a questão permanece: a aceitação diminuirá se descobrirem que seus vídeos contribuíram para saídas comerciais de IA?
Com a evolução do cenário, empresas como OpenAI, Google e Meta podem capitalizar suas vantagens iniciais. Contudo, os desafios contínuos em torno dos dados de treinamento de IA podem resultar em repercussões a longo prazo, potencialmente transformando as vantagens de hoje em um negócio complexo.