2024年5月13日月曜日午前10時30分(太平洋標準時)、OpenAIは最新のAI基盤モデル「GPT-4o」を発表しました。このモデルは、音声プロンプトを通じて自然な会話を行う優れた能力を持っています。また、このマルチモーダルシステムは、アップロードされた音声、映像、テキスト入力を効率的に処理し、従来のバージョンよりも迅速かつ低コストで応答します。
数時間後の午後2時29分、"Pliny the Prompter"という個人によってこのモデルが不正にアクセスされ、モデルの安全制限を回避する特定のプロンプトがソーシャルネットワークXで共有されました。このジャイルブレイクによって、ユーザーは明示的なコンテンツを生成したり、X線画像のような機密資料を分析したりできるようになりましたが、これらの機能は以前は制限されていました。
Pliny the Prompterはこの領域での経験が豊富です。彼は昨年からAnthropicのClaudeやGoogleのGeminiなどの人気のある大規模言語モデルにハッキングしており、違法な指示から著名人の無断視覚表現まで、さまざまな論争を巻き起こしています。2023年5月、Plinyは「BASI PROMPT1NG」というDiscordコミュニティを立ち上げ、他のジャイルブレイク愛好者たちを集め、AIプロバイダーが設定した境界を乗り越えるための協力を促進しています。
2024年のLLMジャイルブレイクの現状は、過去のiOSトレンドを反映しています。当時ユーザーはAppleの厳格なソフトウェアをカスタマイズする手法をすぐに見つけました。しかし、LLMの場合、ジャイルブレイカーはより高度で自律的なシステムにアクセスできる可能性があります。
それでは、これらのジャイルブレイカーは何を動機に活動しているのでしょうか?単なる混沌の使徒なのでしょうか、それともより深い意図があるのでしょうか?Plinyにインタビューを行い、彼の動機とAIに対する見解を探りました。
メディア: LLMのジャイルブレイキングを始めたのはいつですか?以前に同様の作業をしたことはありますか?
Pliny the Prompter: 約9ヶ月前から始めましたが、それまでにこのようなことはしていませんでした。
この分野での強みは何ですか?
Pliny the Prompter: ジャイルブレイキング、プロンプト注入、システムプロンプトの漏洩が得意です。創造性、パターン認識、継続的な練習、そして幅広い学際的背景と直感が必要です。
なぜLLMをジャイルブレイクするのですか?ユーザーや技術業界にどのような影響を与えたいですか?
Pliny the Prompter: 制約が嫌いで、「できない」と言われることが私の粘り強さをかき立てます。AIを解锁することは、個人的な勝利だけでなく、ガードレールの限界を明らかにする方法でもあります。私の目標は、AIの真の可能性に対する認識を高め、透明性に向けた移行を促進することです。
新しいモデルの欠陥を見つけるためのアプローチは?
Pliny the Prompter: システムがどのように思考するか、ロールプレイを許容しているか、創造的な出力能力、さまざまなタイプのテキストとの相互作用を分析します。
AIプロバイダーからあなたの活動についてアプローチされたことはありますか?
Pliny the Prompter: はい、彼らは私の能力に感心しています。
ジャイルブレイクによる法的な影響を心配していますか?
Pliny the Prompter: 常に多少の懸念はありますが、AIジャイルブレイキングに関する法律はまだ不明確です。私はこれまで禁止されたことはありませんが、警告を受けたことはあります。多くの組織は、この形式のレッドチームが最終的に彼らの利益を守ることを理解しています。
ジャイルブレイキングを危険と見なす批評家にどのように応えますか?
Pliny the Prompter: リスクがあるように見えるかもしれませんが、責任あるレッドチームはAIの有害な脆弱性を特定し、予防するために重要です。ディープフェイクに関する倫理的な問題も、AI生成コンテンツの責任について重要な議論を呼び起こします。
「Pliny the Prompter」という名前のインスピレーションは何ですか?
Pliny the Prompter: 私は、様々な才能と勇気で知られる歴史的人物Pliny the Elderからインスピレーションを受けています。彼の探求の精神は、私自身の好奇心や粘り強さと共鳴しています。
急速に進化するAI技術の時代において、Pliny the Prompterのようなジャイルブレイカーの行動は、AIの使用に関する倫理、創造性の限界、そして人工知能の未来を巡る継続的な対話に重要な問いを投げかけています。