AIモデルが自己安全性を評価：OpenAI最新の整合性研究からの洞察

Home AIニュース AIモデルが自己安全性を評価：OpenAI最新の整合性研究からの洞察

OpenAIは、新たにAIモデルの安全ポリシーに沿った整合性を確保するアプローチ「ルールベース報酬（RBR）」を導入しました。安全システム責任者のリリアン・ウェン氏は、RBRがモデルの微調整の一部を自動化し、意図しない応答を防ぐための時間を大幅に短縮することを説明しています。

従来、整合性の訓練には人間のフィードバックに基づく強化学習が利用されてきましたが、ウェン氏によると、これは効果的である一方で時間がかかる方法です。「政策のニュアンスについて多くの時間を費やすことが多く、最終的には政策が変わっていることもあります」と彼女はインタビューで述べています。

人間のフィードバックを使った強化学習では、モデルにプロンプトを提示し、その応答を精度や好みに基づいて評価します。特定の応答を避けるようにプログラムされたモデルでは、安全基準との一致を確認するために人間の評価者が関与します。

RBRを活用することで、OpenAIは安全と政策チームに、確立されたルールに対して応答を評価するモデルの使用を可能にします。例えば、メンタルヘルスアプリの開発チームは、AIモデルが不安全なプロンプトを拒否しながらも非判断的な態度を保ち、ユーザーに支援を促す必要があります。このためには、モデルがリクエストを拒否し、非判断的なトーンを保ち、サポートを提供するという3つのルールを設定する必要があります。

RBRモデルは、これらの3つのルールに対してメンタルヘルスAIからの応答を評価し、一致するかどうかを判断します。ウェン氏によると、RBRを用いたテスト結果は、人間による強化学習と同等のものであると報告されています。

RBRの可能性がある一方で、AIモデルが定義されたパラメータ内で機能することの保証は依然として課題が残り、時には論争を引き起こすこともあります。例えば、2月にGoogleのGeminiモデルが過剰修正を行い、白人の画像生成を拒否し、歴史的に不正確な出力を生成したことに対して、同社は批判に直面しました。

人間の主観性の軽減に向けて

AIが他のAIの安全性を監視するというコンセプトには正当な懸念があります。しかし、ウェン氏はRBRが人間の評価者にとって一般的な課題である主観性を最小限に抑える助けになると主張しています。「人間のトレーナーと働く際、あいまいな指示は質の低いデータを生む」と彼女は指摘します。明確なルールがモデルの行動をより効果的に導くとのことです。

OpenAIは、RBRが人間の監視を軽減する可能性がある一方で、バイアスの増加といった倫理的課題も提起することを認識しています。そのため、RBRシステムの設計において公平性と正確性を確保することが重要であり、RBRと人間のフィードバックの組み合わせを提案しています。

RBRは、創造的な執筆のように主観的な判断を必要とするタスクに苦戦する可能性があります。OpenAIはGPT-4の開発中にRBRの方法を検討し始め、ウェン氏によればその方法論は大きく進展しています。

OpenAIは安全性への取り組みについて批判を受けています。3月には、元研究者ヤン・レイケが同社の安全文化とプロセスを批判し、革新的な製品を追求するあまりこれらが影を潜めていると述べました。共同創設者で最高科学責任者のイリヤ・サツケバーは、レイケと共にスーパアラインメントチームを率いていましたが、その後OpenAIを退職し、安全なAIシステムに焦点を当てた新会社を設立しました。

Nvidiaの新AIツールがカスタムモデルのゴールドラッシュを引き起こす可能性

バークレー・スカイデッキ、スタートアップ・アクセラレーター応募者の対象基準を拡大