« Il serait impossible de former les modèles d'IA leaders d'aujourd'hui sans utiliser des matériaux protégés par des droits d'auteur », a déclaré OpenAI dans sa demande auprès de la Chambre des Lords du Royaume-Uni, qui a fait la une des médias plus tôt cette année. Ce point est au cœur de la défense publique et juridique de l'entreprise concernant ses pratiques controversées de collecte massive de données utilisées pour entraîner ses modèles d'IA, y compris les grands modèles de langage GPT-3.5/4 qui alimentent son produit phare, ChatGPT, ainsi que, implicitement, des concurrents comme Google, Mistral, Meta, Anthropic et Cohere. Les critiques estiment qu'OpenAI aurait dû obtenir un consentement explicite et/ou payer des frais de licence aux propriétaires pour l'utilisation des données protégées, mais la société affirme que ses pratiques relèvent d'un usage transformateur équitable et qu'elles s'inscrivent dans les normes établies d'Internet, où le contenu est collecté depuis des années par de nombreuses autres entreprises pour alimenter les index des moteurs de recherche et d'autres fonctionnalités utiles, sans plainte massive. Le combat se poursuit dans divers procès en cours.
Cependant, un nouveau modèle remet en question cette hypothèse — en tout cas, il remet en question l'idée qu'il est impossible de créer un modèle utile sans s'appuyer sur des données protégées. Le nouveau modèle de langage, KL3M (Kelvin Legal Large Language Model, prononcé « Clem »), est le fruit de 273 Ventures, une startup de deux ans cofondée par Daniel Martin Katz, professeur de droit à l'Illinois Institute of Technology et directeur de la stratégie de l'entreprise, et par son « collaborateur fréquent » Michael Bommarito, entrepreneur en technologie juridique et PDG de 273 Ventures. Le duo avait précédemment cofondé LexPredict, une ancienne startup d'IA juridique, et l'a vendue à la société mondiale de droit Elevate.
KL3M a été lancé fin février 2024, mais il a récemment obtenu la distinction d'être le premier LLM à recevoir une « Certification de Modèle Autorisé (L) » de la société d'audit indépendante Fairly Trained, une organisation à but non lucratif fondée par l'ancien cadre d'AIs Stability AI, Ed Newton-Rex, plus tôt cette année. Le magazine Wired, où ma femme est rédactrice en chef, a été le premier à rapporter la nouvelle.
La certification Fairly Trained (L) est attribuée uniquement aux entreprises capables de prouver, par le biais d'un processus de demande et d'examen, que les données d'entraînement de leur modèle d'IA ont été obtenues et utilisées dans le cadre d'un « accord contractuel avec une partie disposant des droits nécessaires pour conclure un tel accord » ou proviennent du domaine public/licence ouverte. Cela implique également des frais variant de 150 $ à 500 $ par an, ou 500 $ à 6 000 $ annuellement. Il est clair que KL3M répondait à ces critères.
« Aujourd'hui, nous sommes très heureux d'annoncer que le Kelvin Legal Large Language Model (KL3M) est désormais certifié comme étant Fairly Trained », a écrit Katz sur son compte du réseau social X. « KL3M est le tout premier LLM (dans n'importe quelle catégorie) à obtenir une telle certification. »
« L'IA générative peut exister sans exploiter des œuvres protégées sans autorisation », a écrit Fairly Trained dans un article de blog annonçant la certification de KL3M et de quatre autres entités — Voicemod, qui propose des modèles vocaux et de chant IA, les sociétés de musique Infinite Album et Lemonaide, ainsi que le groupe alimenté par IA Frostbite Orckings.
Comment KL3M a-t-il été formé ? Selon Katz, qui a parlé aux médias lors d'un bref entretien téléphonique aujourd'hui, 273 Ventures a méticuleusement collecté des données « qui ne poseraient pas de problèmes » dès ses débuts, à partir de sources telles que des publications de documents gouvernementaux américains et d'anciens dépôts juridiques — tous dans le domaine public.
« Nous n'étions pas sûrs qu'il était possible de faire quelque chose comme ça [former un modèle d'IA] sans utiliser d'énormes quantités d'informations protégées par des droits d'auteur », a déclaré Katz. « Nous pensions qu'il serait au moins possible dans une certaine mesure de réussir, notamment dans les domaines juridique, financier et réglementaire, où il existe une quantité raisonnablement large de matériaux sans droits d'auteur. »
Katz a noté que toutes ces industries ne proposent pas de documents uniformes au domaine public et que cela varie énormément d'un pays à l'autre — par exemple, au Royaume-Uni, certaines entités gouvernementales peuvent exercer des droits de Crown Copyright sur les documents et données qu'elles produisent.
Une grande partie des premiers mois de 273 Ventures a consisté à trier quels documents et données pouvaient être utilisés pour entraîner KL3M sans enfreindre ou même risquer d'enfreindre des droits d'auteur. Ces données ont ensuite été regroupées dans un produit, le Kelvin Legal DataPack, qui contient plus de 150 milliards de jetons et a été lancé en août 2023.
KL3M, pour sa part, a été entraîné sur un « sous-ensemble de haute qualité et sélectionné en anglais du Kelvin Legal DataPack », y compris un examen manuel de 10 000 documents et « un ensemble de données d'environ 350 milliards de jetons. » 273 Ventures décrit son régime de formation pour KL3M en détail ici.
Les résultats sont, jusqu'à présent, deux versions de KL3M : kl3m-170m avec 170 millions de paramètres (les attributs qui régissent un modèle d'IA) et le plus grand kl3m-1.7b avec 1,7 milliard de paramètres. Kl3m-170m est moins performant, mais peut fonctionner sur un matériel aussi peu puissant et peu coûteux qu'un MacBook Air avec puce M1, contrairement à la puce NVidia RTX 4060 de 8 Go requise pour le modèle plus grand (et de nombreux autres LLM concurrents).
273 Ventures prépare également la sortie d'une variante de KL3M de 3,7 milliards de paramètres le mois prochain.
À quoi sert KL3M et combien cela coûte-t-il ? Sur sa page produit, KL3M est décrit comme utile pour « la rédaction et la révision de fiches de temps et de factures, la rédaction et la révision de clauses de contrat, la rédaction et la révision de dépôts auprès de la SEC, comme les sections des rapports 10-K et 8-K, [et] la rédaction de brevets évidents... »
Bien que conçu en pensant aux cabinets d'avocats et à l'industrie juridique — où les clients sont particulièrement sensibles aux questions de provenance des données et de légalité — Katz a déclaré à la presse qu'il était en fait surpris de la capacité de KL3M à se généraliser au-delà de ce secteur cible.
« Pensez-y de cette façon : le droit touche pratiquement tous les sujets de la société », a expliqué Katz. « Et les gouvernements publient beaucoup de documents sources qui vous enseignent des concepts et l'utilisation du langage... Je suis un peu personnellement surpris, mais il a vraiment une portée plus large que ce que nous aurions pensé. »
Lors de l'annonce initiale du modèle le mois dernier, 273 Ventures a produit plusieurs graphiques comparant la performance de KL3M à d'autres modèles de sa catégorie, constatant que la version de 1,7 milliard de paramètres avait une perplexité inférieure (et donc meilleure) que 10 autres modèles leaders, y compris GPT-2 Large et openllama3b_v2 — du moins en matière de rédaction de documents juridiques et d'entrées Wiki.
KL3M a également affiché un score beaucoup plus bas (et donc meilleur) en matière de sorties toxiques que d'autres petits modèles de sa catégorie, y compris le très vanté Phi-2 de Microsoft.
Actuellement, Katz a déclaré que le modèle était déjà utilisé par plusieurs clients de cabinets d'avocats, dont il a refusé de nommer spécifiquement pour des raisons de confidentialité.