Dans une interview exclusive avec le Wall Street Journal, la CTO d'OpenAI, Mira Murati, a discuté du modèle Sora de conversion texte-vidéo, qu'elle a suggéré être disponible pour le public dans quelques mois. La démonstration a présenté des extraits à la fois impressionnants et touchants, captivant et amusant les spectateurs.
Cependant, la conversation a pris un tournant lorsque Murati a été interrogée sur les données d'entraînement utilisées pour Sora. Elle a déclaré : « Nous avons utilisé des données disponibles publiquement et sous licence », mais a eu du mal à préciser si des contenus provenant de YouTube, Facebook ou Instagram étaient inclus. Bien qu'elle ait reconnu l'utilisation de contenus de Shutterstock, son incertitude concernant d'autres plateformes a suscité des interrogations. Sa réponse sur YouTube a été : « Je ne suis pas vraiment sûre », tandis que pour Facebook et Instagram, elle a évoqué de manière vague qu'il pourrait y avoir des vidéos disponibles publiquement sans confirmer de détails précis.
Cette ambiguïté n'a probablement pas plu à l'équipe des relations publiques d'OpenAI, surtout compte tenu des poursuites judiciaires en cours liées aux droits d'auteur, y compris une de la part du New York Times. Les détails des données d'entraînement sont cruciaux pour de nombreux acteurs—auteurs, photographes et artistes—qui souhaitent une clarification sur le contenu utilisé pour développer des modèles comme Sora. Selon des informations rapportées par The Information, OpenAI aurait utilisé des données de diverses sources en ligne, intensifiant l'examen des pratiques de l'entreprise.
Les implications des données d'entraînement dépassent les problèmes juridiques; elles touchent également à la confiance et à la transparence. Si OpenAI a été formé sur du contenu considéré comme « publiquement disponible », que se passe-t-il si le grand public n'en est pas conscient ? De plus, d'autres géants technologiques comme Google et Meta exploitent également du contenu partagé publiquement sur les plateformes qu'ils possèdent. Bien que cela puisse être légalement autorisé, des mises en garde récentes de la FTC concernant des modifications silencieuses des conditions de service soulèvent des questions sur la sensibilisation du public.
Le débat autour des données d'entraînement est fondamental pour l'IA générative, et un audit potentiel se profile—non seulement devant les tribunaux, mais aussi dans l'opinion publique. Comme mentionné précédemment, la dépendance à des ensembles de données divers pour former des modèles d'IA est une préoccupation qui affecte ceux dont le travail créatif contribue à ces ensembles de données.
Historiquement, la collecte de données à des fins marketing a fonctionné sur un principe d'échange. Les utilisateurs fournissent des données pour améliorer leurs expériences, bien que cet échange bénéficie souvent de manière disproportionnée aux courtiers de données. Cette dynamique évolue avec l'IA générative ; beaucoup considèrent l'utilisation de leurs œuvres partagées publiquement comme exploitante, posant des menaces pour les emplois et la créativité.
Les experts plaident en faveur d'ensembles de données d'entraînement bien curés pour améliorer les modèles, soulignant leur importance pour la recherche plutôt que pour l'exploitation commerciale. Pourtant, à mesure que les gens prennent conscience de l'utilisation de leur contenu pour former des modèles à but lucratif, la question demeure : l'acceptation diminuera-t-elle s'ils découvrent que leurs vidéos ont contribué à des produits d'IA commerciaux ?
Alors que le paysage évolue, des entreprises comme OpenAI, Google et Meta pourraient capitaliser sur leurs avantages initiaux. Cependant, les défis persistants entourant les données d'entraînement de l'IA pourraient entraîner des répercussions à long terme, transformant les avantages d'aujourd'hui en un échange complexe.