Une Expansion Majeure d'un des Plus Grands Ensembles de Données d'Entraînement en IA au Monde Promet une Qualité et une Taille Améliorées

Les vastes ensembles de données d'entraînement en IA, souvent appelés corpus, représentent « la colonne vertébrale des grands modèles de langage » (LLMs). En 2023, EleutherAI a attiré l'attention en créant l'un des plus grands corpus de texte open source au monde, le Pile de 825 Go. Cette organisation, un collectif à but non lucratif fondé en 2020 sur Discord pour explorer le GPT-3 d'OpenAI, a été sous le feu des critiques en raison de préoccupations légales et éthiques croissantes liées aux ensembles de données utilisés pour former des LLMs populaires comme le GPT-4 d'OpenAI et le Llama de Meta.

EleutherAI a été mentionnée dans de nombreux procès concernant l'IA générative. Un cas notable, déposé en octobre par l’ancien gouverneur de l'Arkansas, Mike Huckabee, et plusieurs auteurs, affirmait que leurs livres figuraient dans Books3, un ensemble de données controversé comptant plus de 180 000 œuvres qui ont contribué au projet Pile. Books3, initialement téléchargé en 2020 par Shawn Presser, a été retiré en août 2023 suite à un avis légal d'un groupe danois anti-piratage.

Malgré ces défis, EleutherAI développe une version mise à jour du dataset Pile, en collaboration avec des institutions comme l'Université de Toronto et l'Allen Institute for AI, ainsi que des chercheurs indépendants. Stella Biderman, directrice exécutive d'EleutherAI, et Aviya Skowron, responsable des politiques et de l'éthique, ont révélé lors d'une interview conjointe que le nouveau Pile devrait être finalisé dans quelques mois.

Selon Biderman, le Pile mis à jour sera significativement plus grand et « substantiellement meilleur » que son prédécesseur. « Il y aura beaucoup de nouvelles données », a-t-elle noté, en soulignant l'inclusion d'informations inédites. Le nouveau dataset comportera des données plus récentes par rapport à l'original, qui a été publié en décembre 2020 et a servi à entraîner des modèles comme la suite Pythia et la suite Stable LM de Stability AI. Avec les leçons tirées de l'entraînement de près d'une douzaine de LLMs, Biderman a souligné l'amélioration des méthodes de prétraitement des données : « Lorsque nous avons créé le Pile, nous n'avions jamais entraîné de LLM. Maintenant, nous avons acquis des perspectives précieuses sur la façon d'affiner les données pour une utilisation optimale dans les LLMs. »

Le nouveau dataset mettra également l'accent sur une meilleure qualité et une inclusion de données diversifiées. « Nous prévoyons d'incorporer beaucoup plus de livres et une plus large variété d'ouvrages non académiques », a-t-elle expliqué.

Le Pile original était composé de 22 sous-ensembles, y compris Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, les sous-titres YouTube, et même des e-mails d'Enron. Biderman a déclaré que le Pile reste le dataset d'entraînement de LLM le mieux documenté au monde. L'initiative visait à construire un ensemble de données vaste comprenant des milliards de passages de texte, rivalisant avec l'échelle de l'entraînement d'OpenAI pour GPT-3.

« Lors de son introduction en 2020, le Pile a joué un rôle crucial car il était unique », a déclaré Biderman. À l'époque, seul un grand corpus de texte public, C4, existait, que Google avait utilisé pour divers modèles linguistiques. « Mais C4 est plus petit et moins diversifié », a-t-elle affirmé, le décrivant comme un extrait raffiné de Common Crawl.

L'approche d'EleutherAI pour créer le Pile a impliqué une curation sélective d'informations et de sujets essentiels pour enrichir les connaissances des modèles. « Plus de 75 % du Pile a été curé à partir de domaines spécifiques », a-t-elle noté. « Notre objectif était de fournir des insights significatifs sur le monde. »

Skowron a expliqué la position d'EleutherAI sur l'entraînement des modèles et l'utilisation équitable, affirmant que « les LLMs actuels reposent sur des données protégées par des droits d'auteur ». Un des objectifs du projet Pile v2 est d'aborder les problèmes liés aux droits d'auteur et à la licence des données. Le nouveau dataset Pile inclura des œuvres du domaine public, des textes sous licence Creative Commons et des documents gouvernementaux, garantissant la conformité avec les normes légales. De plus, il comprendra des ensembles de données pour lesquels des autorisations explicites des titulaires de droits ont été obtenues.

Les critiques des ensembles de données d'entraînement en IA ont pris de l'ampleur après la sortie de ChatGPT en novembre 2022, soulevant des inquiétudes concernant les violations de droits d'auteur. Une série de poursuites en matière d'IA générative a suivi, émanant d'artistes, d'écrivains et d'éditeurs, culminant en des défis juridiques significatifs, dont un de The New York Times contre OpenAI et Microsoft.

Le débat autour des données d'entraînement en IA est complexe. Biderman et Skowron ont souligné l'importance de traiter des cas moralement controversés, tels que la découverte d'images d'abus sexuel d'enfants dans l'ensemble de données LAION-5B, ce qui a conduit récemment à son retrait. Biderman a noté que la méthodologie utilisée pour signaler ce type de contenu pourrait ne pas être légalement accessible à des organisations comme LAION.

De plus, ils ont reconnu les préoccupations des créateurs dont les œuvres ont été utilisées pour former des modèles d'IA, en insistant sur le fait que beaucoup l'ont fait sous des licences permissives sans anticiper l'évolution de l'IA. « Avec le recul, beaucoup auraient choisi des options de licence différentes », a réfléchi Biderman.

Alors que les ensembles de données d'entraînement en IA étaient autrefois principalement des outils de recherche, ils se sont transformés en produits commerciaux. « Maintenant, le but principal est la fabrication », a déclaré Biderman, soulignant la prise de conscience croissante des implications commerciales pour l'entraînement des modèles d'IA.

Fait intéressant, Biderman et Skowron ont fait valoir que les modèles d'IA entraînés sur des ensembles de données ouverts comme le Pile sont plus sûrs, car une meilleure visibilité des données favorise une utilisation éthique dans divers contextes. « Pour atteindre de nombreux objectifs politiques, une transparence est nécessaire, y compris une documentation complète de l'entraînement », a déclaré Skowron.

Alors qu'EleutherAI continue de peaufiner le Pile, Biderman a exprimé son optimisme quant à la sortie prochaine des nouveaux modèles. « Nous travaillons là-dessus depuis environ un an et demi, et j'ai hâte de voir les résultats. Je m'attends à ce que cela fasse une petite mais significative différence. »

Most people like

Find AI tools in YBX