AIトレーニングデータセットの進化とその影響
大量のAIトレーニングデータセット、一般に「コーパス」と呼ばれるものは、大規模言語モデル(LLM)の「背骨」と見なされています。2023年、EleutherAIは、世界最大のオープンソーステキストコーパスの一つである825GBの「Pile」を作成し注目を集めました。この団体は、2020年に設立された草の根の非営利組織で、OpenAIのGPT-3を探るためのDiscord集団から始まりましたが、LLMをトレーニングするためのデータセットに関する法的および倫理的な懸念が高まる中で、批判の目にさらされています。
EleutherAIは、生成AIに関する多くの訴訟に名が挙がっています。特に、元アーカンソー州知事のマイク・ハッカビー氏と数人の著者が訴えた事例では、彼らの書籍が180,000点を超える作品を収録した「Books3」という論争のあるデータセットに含まれていたとされています。Books3は、2020年にショーン・プレスラーによってアップロードされ、2023年8月にはデンマークの反海賊団体からの法的通知を受けて削除されました。
これらの課題にもかかわらず、EleutherAIは新しいPileデータセットを開発中で、トロント大学やアレンAI研究所、独立した研究者と連携しています。EleutherAIのエグゼクティブディレクター、ステラ・ビーダーマン氏と方針・倫理担当のアヴィヤ・スコウロン氏は、インタビューで新しいPileが数ヶ月内に完成する見込みであることを明らかにしました。
ビーダーマン氏によれば、新しいPileは前バージョンよりも「はるかに大きく、質的にも優れている」とのことです。「新しいデータが多く追加される予定です」と述べ、以前は見られなかった情報の追加が强調されました。新しいデータセットは、2020年12月にリリースされたオリジナルよりも最近のデータが含まれる予定で、PythiaスイートやStability AIのStable LMスイートのトレーニングに使用されました。11以上のLLMをトレーニングした経験から、データ前処理方法が改善されたことに触れ、「Pileを作成した時にはLLMのトレーニング経験がありませんでしたが、現在はデータを最適な形で利用する方法についての貴重な知見を得ました」とビーダーマン氏は語りました。
新しいデータセットは、より良質なデータと多様な情報を重視します。「もっと多くの書籍や、学術的でない様々なノンフィクション作品を取り入れる予定です」と彼女は説明しました。元のPileは、Books3、PubMed Central、arXiv、Stack Exchange、Wikipedia、YouTube字幕、さらにはエンロンのメールも含む22のサブデータセットで構成されていました。ビーダーマン氏は、Pileが世界で最も良く文書化されたLLMトレーニングデータセットであることを強調しました。この取り組みは、OpenAIのGPT-3のトレーニングに匹敵する規模のデータセットを構築することを目指しました。
「2020年に導入された際、Pileはユニークな存在で重要な役割を果たしました」とビーダーマン氏は述べています。当時は、Googleがさまざまな言語モデルのために使用していたC4という1つの公開されている大規模テキストコーパスしか存在しませんでした。「しかし、C4は小規模で多様性に欠けていました」と彼女は主張し、これを精緻なCommon Crawlのスクレイピングとして説明しました。
EleutherAIのPile作成におけるアプローチは、モデルの知識を豊かにするために重要な情報とトピックの選択的キュレーションを含みます。「Pileの75%以上は特定のドメインからキュレートされました」と彼女は述べ、「私たちの目標は、世界についての有意義な洞察を提供することでした」と付け加えました。
スコウロン氏は、モデルのトレーニングと公正利用に関するEleutherAIの立場を説明し、「現在のLLMは著作権のあるデータに依存しています」と述べました。Pile v2プロジェクトの1つの目標は、著作権やデータライセンスに関連する問題に対処することです。新しいPileデータセットには、著作権のない作品、クリエイティブコモンズライセンスのテキスト、政府の文書が含まれ、法的基準への準拠が確保されます。また、権利者から明示的な許可を取得したデータセットも含まれる予定です。
AIトレーニングデータセットに対する批判は、2022年11月にChatGPTがリリースされた後に高まり、著作権侵害に関する懸念を引き起こしました。その後、アーティスト、作家、出版社からの一連の生成AIに関する訴訟があり、ニューヨーク・タイムズがOpenAIおよびMicrosoftに対して提起した重要な法的問題へと発展しました。
AIトレーニングデータに関する議論は複雑です。ビーダーマン氏とスコウロン氏は、LAION-5Bデータセットにおいて児童性的虐待画像が発見されたような倫理的に問題のあるケースに対処する重要性を強調しました。この内容をフラグ付けするための方法論が、LAIONなどの団体にとって法的にアクセス可能でないかもしれないことも認めています。また、AIモデルのトレーニングに使用された作品へのクリエイターの懸念にも触れ、多くは許可のあるライセンスの下で行われ、AIの発展を予想していなかったと述べました。「振り返ると、多くの人が異なるライセンスオプションを選んでいたでしょう」とビーダーマン氏は反省の意を示しました。
AIトレーニングデータセットはかつて主に研究用ツールでしたが、商業製品へと移行しています。「今や主な目的は製造です」とビーダーマン氏は述べ、AIモデルのトレーニングにおける商業的な影響への認識が高まっていることを強調しています。
興味深いことに、ビーダーマン氏とスコウロン氏は、PileのようなオープンデータセットでトレーニングされたAIモデルはより安全であると主張しています。データの透明性がさまざまな文脈での倫理的な使用を促進するとされています。「多くのポリシー目標を達成するためには、透明性が必要であり、包括的なトレーニング文書が必要です」とスコウロン氏は述べました。
EleutherAIがPileの改善を進める中で、ビーダーマン氏は新しいモデルのリリースに期待を寄せています。「私たちはこの取り組みに約1年半取り組んできましたので、結果を見るのが楽しみです。小さな意味のある変化をもたらすことを期待しています。」