Conjuntos massivos de dados para treinamento de IA, frequentemente chamados de corpora, são considerados "a espinha dorsal dos grandes modelos de linguagem" (LLMs). Em 2023, a EleutherAI ganhou destaque ao criar um dos maiores corpora de texto de código aberto do mundo, o Pile, com 825 GB. Esta organização, uma ONG fundada em 2020 como um coletivo no Discord para explorar o GPT-3 da OpenAI, enfrentou escrutínio devido a crescentes preocupações legais e éticas acerca dos dados utilizados para treinar LLMs populares, como o GPT-4 da OpenAI e o Llama da Meta.
A EleutherAI foi mencionada em várias ações judiciais focadas em IA generativa. Um caso notável, movido em outubro pelo ex-governador do Arkansas, Mike Huckabee, e diversos autores, alegou que seus livros foram incluídos no Books3, um conjunto de dados controverso com mais de 180.000 obras que contribuíram para o projeto Pile. O Books3 foi originalmente enviado em 2020 por Shawn Presser e removido em agosto de 2023 após uma notificação legal de um grupo dinamarquês anti-pirataria.
Apesar desses desafios, a EleutherAI está desenvolvendo uma versão atualizada do dataset Pile, colaborando com instituições como a Universidade de Toronto e o Allen Institute for AI, além de pesquisadores independentes. Stella Biderman, diretora executiva da EleutherAI, e Aviya Skowron, chefe de política e ética, revelaram em uma entrevista conjunta que o novo Pile deve ser finalizado em alguns meses.
O Pile atualizado será significativamente maior e "substancialmente melhor" do que seu antecessor, segundo Biderman. “Haverá muitos dados novos,” ela observou, enfatizando a inclusão de informações antes não vistas. O novo conjunto de dados apresentará dados mais recentes em comparação ao original, que foi lançado em dezembro de 2020 e usado para treinar modelos como a suíte Pythia e a suíte Stable LM da Stability AI. Com lições aprendidas ao treinar quase uma dúzia de LLMs, Biderman destacou métodos aprimorados de pré-processamento de dados: "Quando criamos o Pile, nunca havíamos treinado um LLM. Agora, ganhamos insights valiosos sobre como refinar dados para uso ideal em LLMs."
O conjunto atualizado também enfatizará melhor qualidade e inclusão de dados diversos. "Estamos planejando incorporar muito mais livros e uma variedade mais ampla de obras de não-ficção não acadêmicas," ela explicou.
O Pile original era composto por 22 sub-datasets, incluindo Books3, PubMed Central, arXiv, Stack Exchange, Wikipedia, legendas do YouTube e até e-mails da Enron. Biderman destacou que o Pile continua sendo o conjunto de dados de treinamento de LLM mais bem documentado do mundo. A iniciativa visava construir um extenso conjunto de dados composto por bilhões de passagens de texto, rivalizando com a escala do treinamento da OpenAI para o GPT-3.
"Quando foi introduzido em 2020, o Pile teve um papel crucial porque era único," afirmou Biderman. Naquele momento, existia apenas um grande corpus de texto disponível publicamente, o C4, que o Google utilizou para vários modelos de linguagem. "Mas o C4 é menor e menos diverso," ela afirmou, descrevendo-o como uma coleta refinada do Common Crawl.
A abordagem da EleutherAI para criar o Pile envolvia curadoria seletiva de informações e tópicos essenciais para enriquecer o conhecimento do modelo. "Mais de 75% do Pile foi curado de domínios específicos," ela notou. "Nosso objetivo era fornecer insights significativos sobre o mundo."
Skowron explicou a posição da EleutherAI sobre o treinamento de modelos e uso justo, afirmando que "os atuais LLMs dependem de dados protegidos por direitos autorais." Um dos objetivos do projeto Pile v2 é abordar questões relacionadas a direitos autorais e licenciamento de dados. O novo conjunto Pile incluirá obras de domínio público, textos licenciados sob Creative Commons e documentos governamentais, garantindo conformidade com normas legais. Além disso, contará com conjuntos de dados para os quais foram obtidas permissões explícitas dos detentores de direitos.
As críticas aos conjuntos de dados de treinamento de IA ganharam força após o lançamento do ChatGPT em novembro de 2022, levantando preocupações sobre violação de direitos autorais. A série de ações judiciais relacionadas à IA generativa resultou de artistas, escritores e editores, culminando em desafios legais significativos, incluindo um do The New York Times contra a OpenAI e a Microsoft.
O debate sobre os dados de treinamento de IA é complexo. Biderman e Skowron enfatizaram a importância de abordar casos moralmente problemáticos, como a descoberta de imagens de abuso sexual infantil no conjunto de dados LAION-5B, que levou recentemente à sua remoção. Biderman observou que a metodologia usada para sinalizar esse tipo de conteúdo pode não ser legalmente acessível a organizações como a LAION.
Além disso, eles reconheceram as preocupações dos criativos cujas obras foram usadas para treinar modelos de IA, enfatizando que muitos o fizeram sob licenças permissivas sem antecipar a evolução da IA. "Com o passar do tempo, muitos teriam escolhido opções de licenciamento diferentes," refletiu Biderman.
Enquanto os conjuntos de dados de treinamento de IA eram inicialmente ferramentas de pesquisa, eles se transformaram em produtos comerciais. "Agora, o objetivo principal é a fabricação," disse Biderman, destacando a crescente conscientização sobre as implicações comerciais do treinamento de modelos de IA.
Curiosamente, Biderman e Skowron argumentaram que modelos de IA treinados em conjuntos de dados abertos como o Pile são mais seguros, pois uma maior visibilidade dos dados promove o uso ético em diversos contextos. "Para alcançar muitos objetivos políticos, deve haver transparência, incluindo documentação abrangente do treinamento," afirmou Skowron.
Enquanto a EleutherAI continua refinando o Pile, Biderman expressou otimismo sobre o lançamento dos novos modelos em breve. "Estamos trabalhando nisso há cerca de um ano e meio, e estou ansiosa para ver os resultados. Espero que faça uma diferença pequena, mas significativa."