AIチャットボットの限界:高度なシステムが答えを持っていないことを滅多に認めない理由

研究者たちは、高度なチャットボットの進化における重要な欠点を特定しました。AIモデルは時間と共に精度が向上しますが、専門外の質問に対して不確実性を認めるのではなく、誤った自信を持って回答する傾向があります。このため、ユーザーはその自信に満ちた間違った回答をそのまま受け入れ、誤情報の連鎖を助長しています。スペインのバレンシア工科大学のホセ・エルナンデス・オラーロ教授は、「最近はほぼすべての質問に答えています。その結果、正しい回答の数が増えますが、間違った回答も増えることになります」と述べています。

エルナンデス・オラーロ教授は、バレンシア人工知能研究所の同僚たちと共にこの研究を実施し、OpenAIのGPTSiriーズ、MetaのLLaMA、およびオープンソースのBLOOMという3つの大型言語モデル(LLM)のファミリーを調査しました。彼らは、比較的基本的なGPT-3 adaから、2023年3月にリリースされたより高度なGPT-4までのモデルを検証しましたが、最新のGPT-4oとo1-previewは分析に含まれていません。

研究者たちは、算数や地理、科学などのさまざまなトピックに関する数千の質問を用いて各モデルを評価しました。また、リストをアルファベット順に並べるといったタスクも含め、プロンプトを難易度に応じて分類しました。その結果、モデルが進化するにつれて間違った回答の頻度が増加し、より洗練されたチャットボットがすべての質問に対して答えを持っていると過信する「自信過剰な教授」に似ていることが明らかになりました。

人間のインタラクションも問題を複雑にしています。AIの出力の正確性を評価するボランティアは、間違った回答を正しいと誤って分類することが多く、誤分類率は10%から40%に及びました。エルナンデス・オラーロ教授は、「人間はこれらのモデルを効果的に監視することができません」と結論づけました。

この問題を軽減するために、研究チームはAI開発者がより簡単なタスクでの性能向上に注力し、チャットボットに複雑な質問を避けるようプログラムすることを提案しています。「私たちは人々に、『この領域では使えるが、その領域では使うべきではない』と認識してもらう必要があります」とエルナンデス・オラーロ教授は付け加えました。

これは賢明な提案ですが、AI企業がこれを採用するインセンティブが少ないかもしれません。頻繁に答えを知らないと認めるチャットボットは、より高度または価値がないように見えるかもしれず、その結果、利用率や収益が減少する恐れがあります。ただし、私たちは「ChatGPTは間違いを起こす可能性があります」や「Geminiは不正確な情報を表示する場合があります」といった免責事項を目にすることが増えています。

最終的には、提供されたチャットボットの回答を注意深く確認し、誤った情報の拡散を避けることが私たちの責任となります。正確性のために、チャットボットの反応は常にファクトチェックを行いましょう。

Most people like

Find AI tools in YBX