臨床試験の原則を活用したAI安全性テストの向上：説明可能性の理解

Home AIニュース臨床試験の原則を活用したAI安全性テストの向上：説明可能性の理解

AIの消費者向けビジネスでの台頭は、その長期的なガバナンスに関する懸念を呼び起こしています。バイデン政権の最近の大統領令により、高度なAIシステムの開発と展開に関する新たなプロトコルが義務付けられ、その効果的な規制の緊急性が強調されています。

現在、AIプロバイダーと規制当局は、AIガバナンスの主要な要素として「説明責任」を重視しています。この焦点は、AIシステムによって影響を受ける人々が、これらの技術によって生成された結果を理解し、異議を唱えるための基盤を提供します。

自動車ローンの承認など、より単純なアルゴリズムを説明することは比較的容易ですが、最新のAI技術は複雑なアルゴリズムを用いており、解釈が難しいことが多い一方で、重要な利点をもたらしています。例えば、OpenAIのGPT-4は膨大なデータセットと数十億のパラメータを持ち、人間に似た会話を生み出し、さまざまな業界を変革しています。同様に、Google DeepMindのがんスクリーニングモデルは、深層学習を活用して迅速かつ正確な病気の検出を実現し、命を救うことに貢献しています。

これらの複雑なモデルは、意思決定プロセスを不透明にすることがあり、「部分的に説明可能であっても、有益なこれらの技術を見送るべきなのか？」という重要な問いが生まれます。AIを規制しようとする米国の立法者も、この説明可能性の複雑さを認識しており、単なる説明の枠を超えて成果に焦点を当てたAIガバナンスの必要性を強調しています。

新興技術に関する不確実性の対処は新しい概念ではありません。医療界は、新しい治療法を開発する際に潜在的な危害を特定することが重要であることを長年にわたり理解しています。この理解は、リスクを評価するための無作為化比較試験（RCT）の設計につながりました。

RCTでは、参加者は治療群と対照群に分けられ、治療群が医療介入を受ける一方、対照群はそれを受けません。これにより、比較可能な集団間の結果を比較することで、因果関係を明確にし、治療の効果を評価することができます。

歴史的に、医療研究者は長期的な安全性と有効性を評価するために安定した試験デザインを使用してきました。しかし、AIの領域では、システムが継続的に学習しているため、再トレーニングや展開のたびに新たな利点とリスクが生じることがあります。そのため、従来のRCTはAIリスク評価を十分にカバーすることができないかもしれません。A/Bテストなどの代替フレームワークは、AIシステムの結果を時間の経過とともに評価する貴重な洞察を提供する可能性があります。

A/Bテストは、過去15年間にわたり製品開発に広く使用されています。この方法では、異なるユーザーグループに対して異なる扱いをし、ウェブページ上でどのボタンが最もクリックされるかなどのさまざまな機能の影響を評価します。Bingの実験担当責任者を務めたロンニー・コハビは、ユーザーを現在のサイトバージョンと新しいバージョンに無作為に割り当てるオンライン・継続的実験の先駆者でした。この厳密な監視により、企業は製品を反復的に改善し、変更による利益を主要な指標に対して理解することが可能になります。

Bing、Uber、Airbnbなどの多くのテクノロジー企業は、技術的変化を継続的にテストするシステムを確立しています。このフレームワークは、クリック率や収益などのビジネスメトリックの評価だけでなく、差別のような潜在的な危害を特定することも可能にします。

効果的なAI安全性の評価は、次のように行われるかもしれません：ある大手銀行は、新しい個人ローンの価格設定アルゴリズムが女性に不公平な影響を与えるのではないかと懸念しています。このモデルが性別を明示的に使用していないにもかかわらず、銀行は代理変数が意図せず結果に影響を及ぼす可能性があると考えています。これをテストするために、銀行は新しいアルゴリズムを使用する治療群を設定し、対照群には従来のモデルからの決定を受けさせる実験を行うことができます。

性別のような人口統計が両 grupo 間で均等に分配されることを保証することで、銀行は異なる影響を測定し、アルゴリズムの公平性を評価できます。さらに、AIへのエクスポージャーは、新機能の段階的な展開を通じて管理でき、リスク管理を緩やかに行うことができます。

また、Microsoftのような組織では、従業員がAIシステムを対抗的に挑む「レッドチーミング」を活用し、より大規模な展開の前に重大なリスクを特定しています。

最終的に、AIの安全性を測定することで責任を促進します。主観的な説明可能性とは異なり、多様な集団にわたってAIシステムの出力を評価することで、潜在的な危害を評価するための定量的な枠組みが提供されます。このプロセスは責任を確立し、AIプロバイダーがシステムを効果的かつ倫理的に運用することを可能にします。

説明可能性はAIプロバイダーと規制者にとって依然として中心的な焦点であるものの、医療分野からの手法を取り入れることで、安全かつ効果的に機能するAIシステムを実現するという普遍的な目標に近づくことができます。

キャロライン・オブライエンは、顧客体験AI企業Afinitiの最高データ責任者兼製品責任者です。エラザー・R・エデルマンは、MITの医学工学・科学のエドワード・J・ポイトラス教授であり、ハーバード医科大学の医学教授、ボストンのブリガム・アンド・ウィメンズ病院の冠動脈治療ユニットのシニア・アテンダント医師でもあります。

ウィジングスが新発売の“マルチスコープ”BeamOで自宅での便利な健康チェックを実現

専門AIモデル：ハードウェア開発の進化を辿る

Most people like

Prankify AI

154.3K

忘れられない笑いと楽しさを提供するために設計された、究極のAI駆動いたずら電話プラットフォームを発見してください。

AIいたずら電話 AI Celebrity Voice Generator

Deepface Maker

イントロダクション：リアルなディープフェイクのフェイススワップを簡単に作成できる究極のオンラインツールを発見しましょう。動画コンテンツの強化や魅力的なビジュアルの作成、あるいはディープフェイク技術の魅力的な世界を探求するために、私たちの使いやすいプラットフォームがあなたをサポートします。スムーズで説得力のある方法で顔を入れ替え、ディープフェイク制作のエキサイティングな可能性に飛び込んでみてください！

ディープフェイク Large Language Models (LLMs)

EssayGrade.ai

15.3K

AIソリューションで採点の効率を高める今日の急速に変化する教育環境において、AI技術を活用することで採点プロセスが大幅に効率化されます。面倒な作業を自動化し、一貫した評価を実現することで、AIツールは教育者の貴重な時間を節約するだけでなく、評価の正確さも向上させます。AIを採点システムに統合することで、教師と生徒の両方にとって教育体験をどのように変革できるかを探ってみましょう。

AIツール AI Detector

RSIP Vision

15.1K

今日の急速に進化する医療環境において、医療画像分析と人工知能（AI）の交差点が診断と治療計画を革新しています。この分野のリーダーとして、私たちは高度な画像技術とAI主導の洞察を通じて患者の成果を向上させることに全力を尽くしています。私たちの先駆的な取り組みは、単なる技術の進歩にとどまらず、医療のケア基準を再定義し、精密医療の追求において重要な存在となっています。私たちの革新が医療画像の未来をどのように形作り、医療システム全体の効率を向上させているかを探求してください。

医療画像解析 Healthcare

Find AI tools in YBX