AIの未来と責任:生成AIの課題を考える
従来の慣習からの画期的な変化として、生成AI企業は大規模言語モデル(LLM)をインターネットの不確実な環境に直接導入し、品質保証を行っています。オンラインコミュニティがバグや不具合を一緒に見つけることができるなら、徹底的なテストに時間をかける必要はあるのでしょうか?この大胆な実験では、ユーザーが無計画なベータテストに参加することが期待されています。各プロンプトはLLMの独自の特徴を明らかにし、広大なインターネットはエラーを受け入れる場となります—ユーザーが利用規約に同意する限り。
倫理と正確性の選択肢?
生成AIモデルを解き放つ急ぎ足は、花火を配布するようなもので、楽しい一方で危険が伴います。たとえば、Mistralは最近、7BモデルをApache 2.0ライセンスの下で発表しましたが、明示的な使用制限がないため、悪用の懸念が高まっています。基盤となるパラメータのわずかな変更が、結果を劇的に変える可能性があります。また、アルゴリズムや学習データセットに内在するバイアスは社会的不平等を助長します。LLMのトレーニングデータの大部分—GPT-3の60%、LLaMAの67%はCommonCrawlから供給されますが、厳格な品質管理が行われておらず、データ選択の責任は開発者に委ねられています。これらのバイアスを認識し、対処することが倫理的なAIの展開には不可欠です。
倫理的なソフトウェアの開発は必須であるべきですが、開発者が倫理ガイドラインを無視する場合、救済策は限られています。そのため、政策立案者や組織は生成AIの責任ある使用を確保する必要があります。
責任は誰にあるのか?
LLMを巡る法的な状況はあいまいで、責任についての重要な質問を引き起こします。生成AIのサービス条件は正確性を保証するものではなく、責任を受け入れることもなく、ユーザーの裁量に委ねられます。多くのユーザーはこれらのツールを学びや仕事に利用していますが、信頼できる情報と幻想的なコンテンツを区別するスキルが不足しているかもしれません。
不正確さの影響は現実世界にも波及します。たとえば、Alphabetの株価はGoogleのBardチャットボットが誤って「ジェームス・ウェッブ宇宙望遠鏡が太陽系外の惑星を捉えた」と述べた後に急落しました。
重要な意思決定にLLMが組み込まれるにつれて、エラーが発生した場合、責任はLLM提供者、LLMを採用するサービス提供者、または情報を確認しなかったユーザーのどれにあるべきでしょうか?
例えば、シナリオAは故障した車両による事故を描写し、シナリオBは無謀な運転によって同じ結果をもたらします。結果は不幸ですが、責任は異なります。LLMの場合、エラーは提供者の失敗とユーザーの過失の混合から生じ、責任を複雑化します。
「ノーLLMインデックス」の必要性
現在の「noindex」ルールは、コンテンツクリエイターが検索エンジンのインデックスから除外されることを可能にします。同様の選択肢として「no-llm-index」を設けることで、クリエイターは自分のコンテンツがLLMによって処理されるのを防ぐことができます。現在のLLMはカリフォルニア州消費者プライバシー法(CCPA)やGDPRの消去権を遵守しておらず、データ削除リクエストが複雑化しています。
従来のデータベースとは異なり、LLMは学習したパターンから出力を生成するため、特定のデータをターゲットにして削除することがほぼ不可能です。
法的環境のナビゲーション
2015年、米国の控訴裁判所はGoogleが書籍をスキャンしてGoogle Booksを作成したことを「公正利用」として認めましたが、生成AIはこれらの限界を超え、LLMに供給されるコンテンツクリエイターへの補償に関する法的課題を引き起こしています。
OpenAI、Microsoft、GitHub、Metaなどの大手企業は、オープンソースソフトウェアからのコンピュータコードの再生産に関連する訴訟に直面しています。ソーシャルプラットフォーム上のコンテンツクリエイターは、自分の作品をLLMに供給したりマネタイズしたりしない選択を持つべきです。
未来を見据えて
品質基準は業界によって大きく異なります。例えば、Amazon Prime Musicアプリは毎日クラッシュしますが、医療や公共サービスでの2%のクラッシュ率は壊滅的な結果をもたらす可能性があります。一方、LLMのパフォーマンスに対する期待は変動しており、アプリの故障のように容易に特定できないため、AIの故障や幻想の時期を判断することは複雑です。
生成AIが進化する中で、基本的な権利とイノベーションのバランスを保つことは、政策立案者、技術者、そして社会全体にとって不可欠です。最近、中国の国家情報セキュリティ標準化技術委員会やバイデン大統領の執行命令が生成AIの問題を管理するための枠組みを求める提案を行っています。
これらの課題は新しいものではなく、過去の経験は、偽情報のような持続的な問題にもかかわらず、プラットフォームがしばしば最小限の対応をすることを示しています。LLMは、広範囲なデータセットから学習しており、その多くはインターネットから無償で供給されます。これらのデータセットを品質のためにキュレーションすることは可能ですが、「品質」を定義することは主観的です。
重要な質問は、LLM提供者がこれらの問題に本当に対処するのか、それとも責任を逃れ続けるのか、という点です。
さあ、これから面白い旅が始まります。
Amit Vermaは、Neuron7のエンジニアリング/AIラボの責任者であり、創設メンバーです。