"Sería imposible entrenar los modelos de inteligencia artificial líderes de hoy sin utilizar materiales protegidos por derechos de autor", afirmó OpenAI en su presentación a la Cámara de los Lores del Reino Unido, que generó titulares en la web a principios de este año. Este argumento es fundamental en la defensa pública y legal de la empresa por sus controvertidas prácticas de recolección masiva de datos, utilizadas para entrenar sus modelos de IA, incluidos los modelos de lenguaje de gran tamaño GPT-3.5/4 que impulsan su popular producto ChatGPT, así como implícitamente a competidores como Google, Mistral, Meta, Anthropic y Cohere. Los críticos sostienen que OpenAI debió buscar el consentimiento expreso de los propietarios o pagar tarifas de licencia por el uso de datos protegidos, pero la empresa argumenta que sus prácticas son un uso transformativo justo y que operan bajo las normas de Internet, donde el contenido ha sido extraído durante muchos años por diferentes empresas sin masivas quejas. La lucha continúa en varias demandas en curso.
Sin embargo, un nuevo modelo está desafiando esa suposición: KL3M (Kelvin Legal Large Language Model, pronunciado “Clem”), desarrollado por 273 Ventures, una startup de dos años cofundada por Daniel Martin Katz, profesor de derecho en el Instituto de Tecnología de Illinois y director de estrategia (CSO) de la empresa, y su “frecuente colaborador” Michael Bommarito, un empresario de tecnología legal que ocupa el cargo de CEO en 273 Ventures. Este dúo previamente cofundó LexPredict, una antigua startup legal de IA, que fue vendida a la firma global Elevate.
KL3M fue lanzado a finales de febrero de 2024 y hoy ganó la distinción de ser el primer LLM en recibir la "Certificación Modelo Licenciado (L)" de la empresa de auditoría independiente Fairly Trained, una organización sin fines de lucro fundada por el ex ejecutivo de Stability AI, Ed Newton-Rex. La revista Wired, donde trabaja mi esposa como editora en jefe, fue la primera en informar sobre la noticia.
La certificación (L) de Fairly Trained se otorga solo a aquellas empresas que pueden demostrar, a través de un proceso de aplicación y revisión, que sus datos de entrenamiento de modelos de IA fueron obtenidos y utilizados bajo "un acuerdo contractual con una parte que tiene los derechos requeridos para entrar en tal acuerdo" o son de dominio público/licencia abierta. También conlleva una tarifa que varía entre $150 y $500 anualmente. Está claro que KL3M cumplió con estos requisitos.
"Hoy estamos muy emocionados de anunciar que el Kelvin Legal Large Language Model (KL3M) ahora está Certificado como Fairly Trained", escribió Katz en su cuenta de la red social X. "KL3M es el primer LLM (en cualquier categoría) en obtener tal certificación".
“La IA generativa puede existir sin explotar trabajos protegidos por derechos de autor sin permiso", escribió Fairly Trained en un blog anunciando la certificación de K3LM y otras cuatro entidades: Voicemod, que ofrece modelos de habla y canto de IA; las empresas de música Infinite Album y Lemonaide; y el grupo impulsado por IA Frostbite Orckings.
¿Cómo se entrenó KL3M? Según Katz, quien habló brevemente con medios en una entrevista telefónica, 273 Ventures ha estado "reuniendo minuciosamente datos que no fueran problemáticos" desde su inicio, provenientes de fuentes como la liberación de documentos del gobierno de EE. UU. y antiguos archivos legales, todos en dominio público.
“No estábamos seguros de que se pudiera hacer tal cosa [entrenar un modelo de IA] sin utilizar enormes cantidades de información protegida por derechos de autor”, dijo Katz. “Pensamos que sería posible, al menos en cierto ámbito, tener éxito, particularmente en los ámbitos legal, financiero y regulatorio, donde hay una cantidad considerable de material que no tiene derechos de autor”.
Katz destacó que no todas estas industrias ofrecen documentos de dominio público uniformes y que varían drásticamente según el país; por ejemplo, en el Reino Unido, algunas entidades gubernamentales pueden ejercer derechos de autor sobre los documentos y datos que producen. Gran parte de los primeros meses de 273 Ventures consistió en identificar qué documentos y datos podrían usarse para entrenar KL3M sin infringir derechos. Estos datos se agruparon posteriormente en un producto, el Kelvin Legal DataPack, que contiene más de 150 mil millones de tokens y se lanzó en agosto de 2023.
KL3M, por su parte, fue entrenado en un "subconjunto en inglés de alta calidad y curado del Kelvin Legal DataPack", que incluye una revisión manual de 10,000 documentos y "un conjunto de datos con aproximadamente 350 mil millones de tokens". 273 Ventures describe su régimen de entrenamiento para KL3M en más detalle aquí.
Los resultados, hasta ahora, son dos versiones de KL3M: kl3m-170m con 170 millones de parámetros (los atributos que gobiernan un modelo de IA) y el más grande kl3m-1.7b con 1.7 mil millones de parámetros. Kl3m-170m es menos eficiente, pero puede ejecutarse en hardware tan básico y económico como una Macbook Air con chip M1, a diferencia del chip NVidia RTX 4060 de 8GB requerido para el modelo más grande (y muchos otros LLM competidores).
273 Ventures también se prepara para lanzar una variante de KL3M de 3.7 mil millones de parámetros el próximo mes.
¿Qué utilidad tiene KL3M y cuánto cuesta? En su página web de producto, KL3M se publicita como útil para "redactar y revisar entradas de tiempo y facturas, redactar y revisar cláusulas de contrato, redactar y revisar presentaciones a la SEC como secciones de informes 10-K y 8-K, [y] redactar patentes obvias..."
Aunque fue diseñado pensando en bufetes de abogados y la industria legal —donde los clientes son especialmente sensibles a cuestiones de procedencia de datos y legalidad—, Katz comentó que se sorprendió de lo bien que KL3M se generaliza más allá de este sector objetivo. "Piénsalo de esta manera: la ley toca prácticamente todos los temas en la sociedad", explicó Katz. "Y los gobiernos publican mucho material fuente que enseña conceptos y uso del lenguaje... Estoy un poco sorprendido personalmente, pero realmente tiene un alcance más amplio de lo que habríamos pensado".
Al anunciar inicialmente el modelo el mes pasado, 273 Ventures presentó varios gráficos que comparaban el rendimiento de KL3M con otros modelos de su clase, descubriendo que la versión de 1.7 mil millones de parámetros tenía una perplexidad (errores en la predicción de tokens) más baja (y mejor) que otros 10 modelos líderes, incluyendo GPT-2 Large y openllama3b_v2 —al menos en la redacción de material legal y entradas de Wiki.
En este momento, Katz indicó que el modelo ya se está utilizando entre varios clientes de bufetes de abogados a los que no puede nombrar específicamente por razones de confidencialidad.