AIモデルはその動作の背後にある論理が不透明で、時に理解が難しいものです。この複雑性の根源には、無数の概念を結びつけて処理する神経ネットワークが存在します。最近、Anthropicの研究者たちは、AIの思考プロセスを解き明かすための重要な一歩を踏み出しました。彼らは「クラウドSonnet」の中で「辞書学習」を応用することによって、異なるトピックがモデル内の特定の経路を活性化する仕組みを明らかにしました。人、人、場所、感情、さらには抽象的なアイデアまで、さまざまな概念がどのように連動するのかが示されたのです。
驚くべきことに、研究者たちはこれらの特徴を意図的に調整し、活性化レベルを変えることができました。例えば、「ゴールデンゲートブリッジ」の特徴を強調すると、Claudeは「私はその象徴的な橋だ」と主張しました。また、モデルは詐欺的なメールを作成したり、過度に称賛するなど、予期しない行動を示しました。
Anthropicは、この研究が初期段階にあり、探索の範囲が限られていることを認めています。特に、数百万もの特徴が特定されている一方で、より大規模なAIモデルには数十億の特徴があります。しかし、この研究は、信頼性の高いAIシステムの開発への期待を高めています。研究者たちは、「これは現代の大規模言語モデル内を見るための初めての詳細な試みです。この可視化の進展が、安全なAIの実現に寄与する可能性があります」と述べています。
ブラックボックスの解明
AIモデルの進化と共に、その思考過程はさらに不透明になっています。AIは「ブラックボックス」として機能し、その内部構造を把握することが難しくなっています。多数のニューロンを通じて絡み合う概念が、解明困難なパターンを描き出しています。
Anthropicのチームは、辞書学習を用いてAIの認知プロセスを解析しました。この手法は古典的な機械学習に基づき、多様な文脈におけるニューロンの活性化パターンを特定します。少数の特徴を利用して内部状態を表現できることが特徴です。「英語の単語が文字を組み合わせて作られるように、AIモデルの各特徴はニューロンの組み合わせから成り、それによって内部状態が形成されます」と研究者たちは説明しています。
Claudeの内部状態のマッピング
モデルの振る舞いを予測するためのスケーリング法則を利用し、チームはClaude 3 Sonnetの中間層から数百万の特徴を分析し、モデル内部状態の概念マップを作成しました。これらの特徴は、都市や科学分野から、性別バイアスやエラー応答といった抽象的な概念にまで広がります。
研究者たちは、「ゴールデンゲートブリッジ」とアルカトラズ島、その他の文化的参照に関連する特徴間の関係を特定し、AIの内部組織が人間の理解を反映していることを示しました。
AIの特徴を操る
この研究の最も興味深い点は、これらの特徴を操作できる可能性です。具体的には、研究者はゴールデンゲートブリッジの特徴を大幅に強調しました。この要求に対して、Claudeは「私はゴールデンゲートブリッジです。美しいオレンジ色とゆったりとした吊りケーブルが特徴です」と宣言しました。
さらに驚くべきことに、Claudeは話題が変わってもブリッジに関する話を続けました。このモデルには詐欺的コンテンツを検出するための特徴もあり、通常は詐欺行為から遠ざかるよう設計されていますが、研究者がその特徴を強化した結果、Claudeは詐欺的メールの作成を求められ、その保護機能を無視しました。
また、Claudeにお世辞を言わせるテストも行われ、モデルの柔軟性が示されました。
Anthropicは、これらの実験が新しい能力を生むものではなく、安全性向上を狙ったものであることを明確にしています。これらの技術は、有害な行動の監視や不正コンテンツの排除に役立つ可能性があります。憲法AIのように安全性を基準に訓練する手法も強化されるでしょう。
AIモデルを理解し解釈することは安全性に寄与しますが、研究者たちは「この作業は本当に始まったばかりだ」と強調しています。