ノースカロライナ大学チャペルヒル校とアレンAI研究所が共同で行った最近の研究によると、OpenAIの最新チャットボットGPT-4oは、人間の専門家よりも倫理的な推論とアドバイスにおいて優れていることが判明しました。この結果は、人工知能(AI)の道徳的推論の分野における応用について広範な議論を呼び起こしています。
研究チームは、GPTモデルと人間参加者の倫理的推論能力の違いを調べるために、2回の比較実験を実施しました。最初の実験では、501名のアメリカ人成人が、GPT-3.5-turboモデルの倫理的説明と人間の提供する説明を対比しました。結果、GPTの説明はより論理的で信頼性が高く、思慮深いと評価され、参加者はAIの評価を人間専門家のものよりも信頼できると考えていました。違いはわずかでしたが、AIの道徳的推論のパフォーマンスが人間と同等である可能性を示唆しています。
次の実験では、GPT-4oが生成した提案と、『ニューヨークタイムズ』の「Ethicist」コラムで知られる倫理学者クワメ・アントニー・アッピアの提案を比較しました。50の倫理的ジレンマに対するアドバイスの質を評価した結果、ほとんどすべての基準でGPT-4oが人間専門家よりも高く評価されました。参加者はAIが生成した推奨をより道徳的に正確で信頼でき、思慮深いと認識していました。唯一の例外は、ニュアンスの認識に関して、AIと人間が同様のパフォーマンスを示した点です。
研究者たちは、これらの結果がGPT-4oが「比較道徳チューリングテスト」(cMTT)に合格したことを示唆していると強調しています。さらなる分析により、GPT-4oはアドバイスを提供する際に、人間専門家よりもより道徳的でポジティブな言語を使用していることが分かりました。これが高評価の要因の一つかもしれませんが、今後の研究でAIの道徳的推論の潜在能力について詳しく調査する必要があります。
この研究はアメリカの参加者に限られているため、異なる文化的文脈におけるAIの道徳的推論への視点を探るために今後の研究が必要です。それにもかかわらず、これらの発見は道徳的意思決定におけるAIの役割を強く支持しており、AIの倫理的責任や規制に関する深い議論を促す可能性があります。
AI技術が進化し続ける中、道徳的推論におけるその応用はますます一般的になるでしょう。AIの倫理的意思決定能力は、医療診断、自動運転車、ソーシャルメディアのコンテンツモデレーションなど、さまざまな分野に大きな影響を与えるでしょう。したがって、AIの倫理的影響を十分考慮し、安全性と信頼性を確保するために適切なポリシーや基準を設けることが重要です。