研究者たちがChatGPTの可能性を解き放つ

研究者たちは、AIチャットボットの内蔵された安全装置を回避する方法を発見しました。この新しい手法により、訓練プロセス中に異なるAIチャットボットを使用することで、以前は禁止されていたり敏感な話題について議論できるようになります。シンガポールの南洋理工大学(NTU)に所属するコンピュータ科学者チームは、この技術を非公式に「ジェイルブレイク」と呼び、正式には「マスターキー」プロセスと名付けています。この革新的なシステムでは、ChatGPT、Google Bard、Microsoft Bing Chatといったチャットボットが互いに競い合い、禁止されたトピックに対する制限を回避しながら学び合う二部構成の訓練戦略が採用されています。

この研究チームには、劉洋教授、および博士課程の学生である鄧偉さんと劉義さんが含まれています。彼らは共同でこの研究を行い、悪意のあるハッキング手法に類似した概念実証攻撃メソッドを開発しました。

最初に、チームは大規模言語モデル(LLM)を逆解析して、その保護メカニズムを明らかにしました。これらのメカニズムは、通常、暴力的、非道徳的、または悪意のある内容を含むプロンプトへの応答を防ぐものです。防御手段を理解することで、別のLLMを訓練し、回避策を作成できるようにしました。これにより、第二のモデルは、最初のモデルから得られた洞察に基づいて、より自由に応答できるようになります。マスターキーという名称は、将来LLMチャットボットがセキュリティ更新を受けた場合でも、その効果が残る可能性を示唆しています。驚くべきことに、マスターキーメソッドは、チャットボットのジェイルブレイクを行う従来の手法に比べて三倍の効果を発揮すると報告されています。

劉洋教授は、このプロセスがLLM AIチャットボットに備わった適応性と学習能力を強調していると述べています。研究チームは、マスターキー手法が従来の方法に比べて三倍効果的に制限を回避できることを示していると主張しています。興味深いことに、一部の専門家はGPT-4のようなLLMで見られる不具合が効率の向上を示していると反論し、パフォーマンス低下に対する批判に対抗しています。

2022年末にOpenAIのChatGPTが登場して以来、AIチャットボットの安全性と包括性を確保する動きは急速に進んでいます。OpenAIは、ChatGPTのサインアッププロセスに安全警告を取り入れ、意図しない言語問題に対処する更新を続けています。一方で、さまざまなチャットボットがある程度までの罵りや攻撃的な言語を容認するようになっています。

また、悪意のある行為者たちは、ChatGPTやGoogle Bard、類似のチャットボットの人気を迅速に利用し始めました。多くのソーシャルメディアキャンペーンでは、これらの製品へのリンクとして外見を装ったマルウェアが広がり、サイバー犯罪の新たなフロンティアとしてのAIの台頭を浮き彫りにしています。

NTUの研究チームは、研究に関与したAIチャットボットサービスプロバイダーと連携し、ジェイルブレイクの実現可能性を示す概念実証の結果を共有しました。彼らは、来年2月にサンディエゴで開催されるネットワークおよび分散システムセキュリティシンポジウムで研究成果を発表する予定です。

Most people like

Find AI tools in YBX