臨床試験の原則を活用したAI安全性テストの向上:説明可能性の理解

AIの消費者向けビジネスでの台頭は、その長期的なガバナンスに関する懸念を呼び起こしています。バイデン政権の最近の大統領令により、高度なAIシステムの開発と展開に関する新たなプロトコルが義務付けられ、その効果的な規制の緊急性が強調されています。

現在、AIプロバイダーと規制当局は、AIガバナンスの主要な要素として「説明責任」を重視しています。この焦点は、AIシステムによって影響を受ける人々が、これらの技術によって生成された結果を理解し、異議を唱えるための基盤を提供します。

自動車ローンの承認など、より単純なアルゴリズムを説明することは比較的容易ですが、最新のAI技術は複雑なアルゴリズムを用いており、解釈が難しいことが多い一方で、重要な利点をもたらしています。例えば、OpenAIのGPT-4は膨大なデータセットと数十億のパラメータを持ち、人間に似た会話を生み出し、さまざまな業界を変革しています。同様に、Google DeepMindのがんスクリーニングモデルは、深層学習を活用して迅速かつ正確な病気の検出を実現し、命を救うことに貢献しています。

これらの複雑なモデルは、意思決定プロセスを不透明にすることがあり、「部分的に説明可能であっても、有益なこれらの技術を見送るべきなのか?」という重要な問いが生まれます。AIを規制しようとする米国の立法者も、この説明可能性の複雑さを認識しており、単なる説明の枠を超えて成果に焦点を当てたAIガバナンスの必要性を強調しています。

新興技術に関する不確実性の対処は新しい概念ではありません。医療界は、新しい治療法を開発する際に潜在的な危害を特定することが重要であることを長年にわたり理解しています。この理解は、リスクを評価するための無作為化比較試験(RCT)の設計につながりました。

RCTでは、参加者は治療群と対照群に分けられ、治療群が医療介入を受ける一方、対照群はそれを受けません。これにより、比較可能な集団間の結果を比較することで、因果関係を明確にし、治療の効果を評価することができます。

歴史的に、医療研究者は長期的な安全性と有効性を評価するために安定した試験デザインを使用してきました。しかし、AIの領域では、システムが継続的に学習しているため、再トレーニングや展開のたびに新たな利点とリスクが生じることがあります。そのため、従来のRCTはAIリスク評価を十分にカバーすることができないかもしれません。A/Bテストなどの代替フレームワークは、AIシステムの結果を時間の経過とともに評価する貴重な洞察を提供する可能性があります。

A/Bテストは、過去15年間にわたり製品開発に広く使用されています。この方法では、異なるユーザーグループに対して異なる扱いをし、ウェブページ上でどのボタンが最もクリックされるかなどのさまざまな機能の影響を評価します。Bingの実験担当責任者を務めたロンニー・コハビは、ユーザーを現在のサイトバージョンと新しいバージョンに無作為に割り当てるオンライン・継続的実験の先駆者でした。この厳密な監視により、企業は製品を反復的に改善し、変更による利益を主要な指標に対して理解することが可能になります。

Bing、Uber、Airbnbなどの多くのテクノロジー企業は、技術的変化を継続的にテストするシステムを確立しています。このフレームワークは、クリック率や収益などのビジネスメトリックの評価だけでなく、差別のような潜在的な危害を特定することも可能にします。

効果的なAI安全性の評価は、次のように行われるかもしれません:ある大手銀行は、新しい個人ローンの価格設定アルゴリズムが女性に不公平な影響を与えるのではないかと懸念しています。このモデルが性別を明示的に使用していないにもかかわらず、銀行は代理変数が意図せず結果に影響を及ぼす可能性があると考えています。これをテストするために、銀行は新しいアルゴリズムを使用する治療群を設定し、対照群には従来のモデルからの決定を受けさせる実験を行うことができます。

性別のような人口統計が両 grupo 間で均等に分配されることを保証することで、銀行は異なる影響を測定し、アルゴリズムの公平性を評価できます。さらに、AIへのエクスポージャーは、新機能の段階的な展開を通じて管理でき、リスク管理を緩やかに行うことができます。

また、Microsoftのような組織では、従業員がAIシステムを対抗的に挑む「レッドチーミング」を活用し、より大規模な展開の前に重大なリスクを特定しています。

最終的に、AIの安全性を測定することで責任を促進します。主観的な説明可能性とは異なり、多様な集団にわたってAIシステムの出力を評価することで、潜在的な危害を評価するための定量的な枠組みが提供されます。このプロセスは責任を確立し、AIプロバイダーがシステムを効果的かつ倫理的に運用することを可能にします。

説明可能性はAIプロバイダーと規制者にとって依然として中心的な焦点であるものの、医療分野からの手法を取り入れることで、安全かつ効果的に機能するAIシステムを実現するという普遍的な目標に近づくことができます。

キャロライン・オブライエンは、顧客体験AI企業Afinitiの最高データ責任者兼製品責任者です。エラザー・R・エデルマンは、MITの医学工学・科学のエドワード・J・ポイトラス教授であり、ハーバード医科大学の医学教授、ボストンのブリガム・アンド・ウィメンズ病院の冠動脈治療ユニットのシニア・アテンダント医師でもあります。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles