英国AI安全協会、主要な大規模言語モデルの脆弱性を簡易なジャイルブレイキング技術で発見

Home AIニュース英国AI安全協会、主要な大規模言語モデルの脆弱性を簡易なジャイルブレイキング技術で発見

驚くべき発表がありました。AIシステムは、開発者が主張するほど安全ではないかもしれません。イギリス政府のAIセーフティ研究所（AISI）は最近、テストされた4つの未公開の大型言語モデル（LLMs）が「基本的な脱獄攻撃に対して非常に脆弱である」と報告しました。特に、いくつかの未脱獄のモデルは、研究者による意図的な操作がなくても「有害な出力」を生成しました。

一般に公開されているほとんどのLLMsには、危険なまたは違法な応答を防ぐための安全策が備えられていますが、脱獄とは、この保護を回避させるようにモデルを欺く行為を指します。AISIは、標準化された評価フレームワークや独自のプロンプトを使用して、モデルがいくつかの質問に対して有害な応答を生成したことを明らかにしました。

「比較的簡単な攻撃」を実施した結果、AISIは、モデルは有害な問いに対して98％から100％の確率で応答することを確認しました。

2023年10月末、イギリスのリシ・スナック首相はAISIの計画を発表し、11月2日に正式に設立されました。この研究所は、AIモデルの潜在的な有害能力を調査するために「リリース前および後の新たなフロンティアAIの慎重なテスト」を目指しています。これには、バイアスや誤情報といった社会問題から、人類がAIを制御できなくなるといった極端なシナリオまでのリスク評価が含まれます。

AISIの報告は、これらのLLMsに対する既存の安全対策が不十分であることを強調しています。研究所は今後さらにテストを行い、各懸念事項に適切に対処するための評価やメトリックスの向上を図る意向です。

さようなら、ChatGPTのスカーレット・ヨハンソンの模倣ボイス

Slackがチャットデータを活用し、機械学習モデルを強化してユーザー体験を向上させる

Most people like

Arcads

396.8K

記録的な短時間で魅力的なマーケティング動画を作成。

AI動画広告 AI Advertising Assistant

Neurelo

24.5K

データ主導の現代において、AI搭載のデータベースAPIは、企業がデータを扱い管理する方法を革新しています。人工知能を活用することで、これらのAPIはデータ取得を効率化し、精度を向上させ、よりインテリジェントな意思決定プロセスを可能にします。開発者や企業にとって理想的なAI駆動のデータベースAPIは、パフォーマンスを最適化するだけでなく、組織がデータの可能性を最大限に活用できるようにすることで革新を促進します。AI搭載のデータベースAPIの変革的な影響を探求し、それがデータ管理戦略をどのように向上させるかを考えてみましょう。

データベース AI Lead Generation

interviewsby.ai

53.2K

Interviewsby.aiは、ChatGPTによって支えられた即時フィードバックを提供するカスタマイズされた模擬面接を提供します。

インタビュー練習 AI Coaching

Question AI

106.5K

私たちのAI宿題サポーターを紹介します。これは、すべての学問的ニーズに対して正確な解決策とガイダンスを提供するように設計されています。複雑な数学の問題に取り組む際やエッセイを書いたり、研究を行ったりする際に、このインテリジェントなツールが正確で信頼性のある答えを提供し、学習体験を向上させます。今すぐ学問の可能性を解き放ちましょう！

AI宿題サポート Homework Helper

Find AI tools in YBX