"Seria impossível treinar os principais modelos de IA atuais sem utilizar materiais protegidos por direitos autorais," afirmou a OpenAI em sua apresentação à Câmara dos Lordes do Reino Unido, que ganhou destaque na mídia no início deste ano.
Esse argumento está no cerne da defesa pública e legal da empresa em relação às suas práticas controversas de coleta em massa de dados, que são utilizadas para treinar seus modelos de IA, incluindo os grandes modelos de linguagem GPT-3.5/4 que alimentam o produto de sucesso ChatGPT. Críticos alegam que a OpenAI deveria ter buscado consentimento explícito ou pago taxas de licenciamento aos detentores dos dados, mas a empresa defende que suas práticas são um uso transformativo justo, operando sob normas estabelecidas da internet, onde o conteúdo tem sido coletado por várias empresas ao longo dos anos para impulsionar mecanismos de busca e outras funcionalidades úteis, sem reclamações em massa. A batalha legal continua em vários processos em andamento.
No entanto, um novo modelo está desafiando essa suposição — pelo menos a ideia de que é impossível criar um modelo útil sem recorrer a dados protegidos por direitos autorais. O novo LLM se chama KL3M (Kelvin Legal Large Language Model, pronunciado "Clem") e é fruto da 273 Ventures, uma startup de dois anos cofundada por Daniel Martin Katz, professor de direito no Illinois Institute of Technology e diretor de estratégia da empresa, e seu "colaborador frequente" Michael Bommarito, um empreendedor em tecnologia jurídica que atua como CEO da 273 Ventures. A dupla havia cofundado anteriormente a LexPredict, uma startup jurídica de IA, vendida para a empresa global Elevate.
Lançado no final de fevereiro de 2024, KL3M conquistou a distinção de ser o primeiro LLM a receber a “Certificação de Modelo Licenciado (L)” da Fairly Trained, uma auditoria independente sem fins lucrativos, fundada e liderada pelo ex-executivo da Stability AI, Ed Newton-Rex, no início deste ano. A revista Wired, onde minha esposa atua como editora-chefe, foi a primeira a divulgar a notícia.
A certificação Fairly Trained (L) é concedida apenas às empresas que conseguem provar, por meio de um processo de solicitação e revisão, que os dados utilizados para treinar seu modelo de IA foram obtidos e usados sob "um acordo contratual com uma parte que possui os direitos necessários para celebrar tal acordo" ou que são de domínio público/licença aberta. A certificação tem um custo que varia entre US$ 150 a US$ 500 anuais. Claramente, KL3M atendeu a esses requisitos.
“Estamos muito animados para anunciar que o Kelvin Legal Large Language Model (KL3M) agora está Certificado como Justamente Treinado,” escreveu Katz em sua conta na rede social X. “KL3M é o primeiro LLM (em qualquer categoria) a obter tal certificação.”
“A IA generativa pode existir sem explorar trabalhos protegidos por direitos autorais sem permissão,” escreveu a Fairly Trained em um post no blog anunciando a certificação do K3LM, juntamente com outras quatro entidades — Voicemod, que oferece modelos de fala e canto em IA, as empresas de música Infinite Album e Lemonaide, e o grupo em IA Frostbite Orckings.
Como foi treinado KL3M? Segundo Katz, que falou com a mídia em uma breve entrevista telefônica, a 273 Ventures tem se dedicado, desde sua criação, a “coletar dados que não apresentariam problemas” de fontes, incluindo liberações de documentos do governo dos EUA e antigos arquivos jurídicos — todos de domínio público.
“Não tínhamos certeza de que seria possível fazer isso [treinar um modelo de IA] sem usar grandes volumes de informações protegidas por direitos autorais,” disse Katz. “Achávamos que conseguiríamos, ao menos em certo escopo, ter sucesso, especialmente nas áreas jurídica, financeira e regulatória, onde há uma quantidade razoavelmente grande de material que não tem direitos autorais.”
Katz observou que não todas as indústrias oferecem documentos de domínio público de forma uniforme e que isso varia drasticamente por país — por exemplo, no Reino Unido, algumas entidades ou agências governamentais podem exercer os Direitos Autorais da Coroa sobre documentos e dados que produzem.
Uma grande parte dos primeiros meses da 273 Ventures foi dedicada a identificar quais documentos e dados poderiam ser usados para treinar KL3M sem infringir ou arriscar infrações. Esses dados foram eventualmente agrupados em um produto além disso, o Kelvin Legal DataPack, que contém mais de 150 bilhões de tokens e foi lançado em agosto de 2023.
KL3M, por sua vez, foi treinado em um “subconjunto de inglês de alta qualidade e revisado do Kelvin Legal DataPack,” incluindo uma análise manual de 10.000 documentos e “um conjunto de dados com aproximadamente 350 bilhões de tokens.” A 273 Ventures descreve seu regime de treinamento para KL3M com mais detalhes aqui.
Os resultados são, até agora, duas versões de KL3M: kl3m-170m, com 170 milhões de parâmetros (atributos que regem um modelo de IA) e a maior kl3m-1.7b, com 1,7 bilhões de parâmetros. Kl3m-170m é menos performática, mas pode ser executada em hardware tão simples e barato quanto um Macbook Air com chip M1, comparado ao chip NVidia RTX 4060 de 8GB necessário para o modelo maior (e muitos outros LLMs concorrentes).
A 273 Ventures também está se preparando para lançar uma variante de KL3M com 3,7 bilhões de parâmetros no próximo mês.
Para que serve KL3M e quanto custa? Em sua página de produto, KL3M é anunciado como útil para “elaborar e revisar entradas de tempo e faturas, redigir e revisar cláusulas contratuais, elaborar e revisar registros da SEC como seções de relatórios 10-K e 8-K, [e] redigir patentes óbvias…”
Embora projetado com escritórios de advocacia e a indústria jurídica em mente — onde os clientes são especialmente sensíveis a questões de proveniência de dados e legalidade — Katz afirmou à mídia que ficou realmente surpreso com a capacidade do KL3M de se generalizar além desse setor-alvo.
“Basta pensar da seguinte forma: a lei toca praticamente todos os tópicos da sociedade,” explicou Katz. “E os governos disponibilizam uma grande quantidade de material de origem que ensina conceitos e o uso da linguagem… Estou um pouco surpreso, pessoalmente, mas realmente tem um alcance mais amplo do que pensávamos.”
Ao anunciar inicialmente o modelo no mês passado, a 273 Ventures produziu diversos gráficos comparando o desempenho do KL3M com outros modelos em sua classe, constatando que a versão com 1,7 bilhões de parâmetros teve perplexidade (erros na previsão de tokens) mais baixa (e, portanto, melhor) em comparação a 10 outros modelos principais, incluindo GPT-2 Large e openllama3b_v2 — pelo menos na redação de material jurídico e entradas da Wiki.
Atualmente, Katz disse que o modelo já está sendo utilizado por vários clientes de escritórios de advocacia que ele não pode nomear especificamente por questões de confidencialidade.