「著作権のある資料を使用せずに、今日のAIモデルのトレーニングを行うことは不可能だろう」とOpenAIは、今年初めに発表された英国上院への申し立ての中で述べました。この議論は、同社がAIモデルのトレーニングに用いる物議を醸す大規模なデータスクレイピング手法を正当化するための公的および法的防衛の核心にあります。特に、ChatGPTの基盤であるGPT-3.5およびGPT-4の大規模言語モデル(LLM)に関連しています。Google、Mistral、Meta、Anthropic、Cohereなどの競合他社にも影響を及ぼしています。批評家たちは、OpenAIは著作権データの使用に対する明示的な同意を求めるべきであり、使用に関するライセンス料を支払うべきだと主張していますが、同社はその慣行が公正な変革的使用に基づき、他の多くの企業がコンテンツをスクレイピングして検索エンジンのインデックスやその他の便利な機能を提供してきた長年のインターネットの慣習に従っていると反論しています。この争いは、現在も様々な訴訟で続いています。しかし、新しいモデルがその前提に挑戦しています。つまり、著作権データに依存せずに実用的なモデルを作成することは可能だという考えです。
この新しいLLMはKL3M(Kelvin Legal Large Language Model、「クレム」と発音)と呼ばれ、Illinois Institute of Technologyの法学教授であり273 Venturesの戦略責任者であるダニエル・マーティン・カッツと、273 VenturesのCEOである法律テクノロジーの起業家マイケル・ボンマリートによって共同設立されたスタートアップ273 Venturesの作品です。彼らは以前、AI法律スタートアップLexPredictを共同設立し、グローバルな法律企業であるElevateに売却しました。
KL3Mは2024年2月末にリリースされましたが、本日、独立した監査会社Fairly Trainedから「Licensed Model (L) Certification」を受けた初のLLMとして注目を集めました。Fairly Trainedは、元Stability AIの幹部エド・ニュートン-レックスによって設立された非営利団体です。私の妻が編集長を務めるWired magazineが最初にこのニュースを報じました。
Fairly Trainedの(L)認証は、契約上その権利を持つ当事者との契約に基づき、AIモデルのトレーニングデータが取得され、使用されたことを証明できる企業にのみ授与されます。また、認証には150ドルから500ドルの申し込み料がかかり、年間500ドルから6000ドルまでの費用が発生します。KL3Mは明らかにこれらの要件を満たしていました。
「本日、Kelvin Legal Large Language Model (KL3M)がFairly Trainedの認証を受けたことを非常に嬉しく思います」とカッツはソーシャルネットワークXで述べました。「KL3Mはこのような認証を取得した最初のLLMです。」
「生成AIは、著作権のある作品を無許可で利用しなくても存在できます」とFairly Trainedは、K3LMと他の4つの法人(AI音声・歌唱モデルを提供するVoicemod、音楽会社のInfinite AlbumとLemonaide、AI駆動のグループFrostbite Orckings)の認証を発表するブログで述べました。
KL3Mはどのようにトレーニングされたのか?
カッツによれば、273 Venturesは創設以来、「問題のない」データを注意深く収集しており、そのソースには米国政府の文書公開や古い法的提出物など、すべて公的領域にあるものが含まれています。「著作権のある情報を膨大に使用せずに、AIモデルのトレーニングができるのか疑問でした」とカッツは言います。「特に、著作権のない資料が適度に存在する法的、金融、規制の分野で、ある程度成功する可能性があると思いました。」
カッツは、これらの業界が均一な公的領域の文書を提供しているわけではなく、国によって大きく異なることを指摘しました。例えば英国では、一部の政府機関や団体が作成した文書やデータに対して王室著作権を行使することがあります。
273 Venturesの初期段階では、著作権を侵害したり、侵害のリスクを抱えないデータを選定する作業が重要であり、そのデータはKelvin Legal DataPackという製品にまとめられ、2023年8月にリリースされました。このデータパックには1500億トークン以上が含まれています。
KL3M自体は、Kelvin Legal DataPackの「高品質で厳選された英語のサブセット」でトレーニングされ、1万件の文書を手動でレビューし、「約3500億トークンのデータセット」を使用しています。273 VenturesはKL3Mのトレーニング手法について、さらに詳細を提供しています。
現在までの結果は、KL3Mの2つのバージョン、すなわち170百万パラメータを持つkl3m-170mと1.7億パラメータを持つkl3m-1.7bです。kl3m-170mは性能が劣りますが、M1チップを搭載したMacBook Airのような低価格で低消費電力のハードウェアで動作します。一方、より大きなモデルはNvidia RTX 4060 8GBチップを必要とします。
273 Venturesは、来月3.7億パラメータのKL3Mバリアントをリリースする準備も進めています。
KL3Mは何に使え、どのくらいのコストがかかるのか?
KL3Mの製品ページでは、「時間の記録と請求書の草案及び校正、契約条項の草案及び校正、10-Kおよび8-K報告書のセクションの草案及び校正、明白な特許の草案」などに役立つと広告されています。
法律事務所や法律業界向けに設計されていますが、カッツは実際にはKL3Mがこのターゲット業界を超えてどれほどうまく一般化しているのかに驚いたと述べています。「法律は社会のほとんどすべてのトピックに触れるのです」と説明しています。「政府は概念や言語の使用を教える多くの資料を公開していますので、私たちが考えていたよりも広い範囲での適応性があることに少し驚いています。」
273 Venturesは先月モデルを発表した際、KL3Mのパフォーマンスを他のモデルと比較するいくつかのチャートを作成し、1.7億パラメータを持つバージョンが、法的文書やWikiのエントリを執筆する際において、GPT-2 Largeやopenllama3b_v2を含む10の他の主要モデルよりも低い(すなわちより良い)Perplexityを記録したことを確認しました。
現在、KL3Mは特定の機密保持の理由から名前を挙げることができない複数の法律事務所の顧客にすでに使用されています。