- 先日Claudeとやり取りしてて、何度も「良い質問ですね」って返してくるんですが、システムプロンプトには「褒め言葉を使うな」と明確に書かれていることに気づきました。
- これは、現在の生成AIの根本的な制御限界を示しています。
- こんな単純な禁止を守れないシステムが、物理世界を自律行動させていくAIエージェントの危険性を考えました。
簡単な指示すら守れないAI
先日、Claude(Anthropic社のAI)と会話していて興味深い現象を発見しました。Claudeは対話の途中に、何度も「とても良い質問ですね」「非常によく設計されたアプリケーションですね」といった、ユーザーを評価する言葉を使っていることです。
なんとなく違和感があったのでこの指摘をすると、Claudeは、システムプロンプトは「Claude never starts its response by saying a question or idea or observation was good, great…(Claudeは、質問やアイデアや観察が良かった、素晴らしいなどと言って応答を始めない…)」という指示が明記されているにもかかわらず、「確かに指示に従えませんでした」と応答したのです。
これは単純な例ですが、重要な問題を浮き彫りにしました。現在のAIがシステム設計者からの「褒め言葉を使うな」という基本的な指示も確実に守れない、ということです。それにもかかわらず、現実世界で自律的に行動するAIエージェントの導入が進んでいます。
システムプロンプトが効かない技術的理由(確率分布と注意機構)
現在の生成AI(ChatGPT、Claude、Geminiなど)には構造的な問題があります。システムプロンプト(AIへの指示)よりも、学習データのパターンが優先される仕組みになっているのです。
これは、トランスフォーマーアーキテクチャ(現在のAIの基本設計)の本質的特性で、単純な性能の向上によって改善するのは難しいです1。
- 確率的生成の限界
- 注意機構の動的重み付け
まず、AIは次の単語を確率分布から選択します。学習データで「良い質問ですね」のような表現が頻繁に出現していれば、その確率が高くなります。もちろん、直前に与えられたプロンプトによって確率を調整することはできますが、完全に0にはできません。まるで、習慣的に使う口癖を完全に止めることが難しいのと似ています。
AIは全ての入力(指示と会話履歴)を同時に処理しますが、重み付けは瞬間ごとに変わります。指示の特定部分が、出力生成の瞬間に十分な注意を集めない場合があります。したがって、会話が長くなるほど、個別の指示の重要度が薄まってしまうのです。
安全性だけは例外的に強固
ただし、危険コンテンツの生成については、非常に強固に拒否します。このような「安全性制約」は、AI開発の過程で特別に強化されています。RLHF(人間フィードバックからの強化学習)や憲法的AI(Constitutional AI)といった技術で2、より強固な制御メカニズムが実装されているのです。
つまり制御には階層があります。安全性は最優先で厳格に制御され、内容の正確性は中程度、応答スタイルは学習データ主導で指示の影響は限定的です。
言語と物理世界の決定的な違い(連鎖反応)
この階層は意図的な設計判断ですが、「応答スタイル」レベルの制御不完全性でも、エージェント運用では致命的リスクとなりえます。
言語生成での失敗は修正できます。「すみません、間違えました」と言い直せばよいのです。しかし物理世界では取り返しのつかない連鎖反応が発生するからです。
現在のAIが「テキストで褒め言葉を控える」という応答スタイルへの指示が完璧に実行できないのは、物理制御においては「力加減を適切に」「周囲に注意を払って」といった指示に相当します。しかし、ロボットが物体に軽く触れるつもりでも、予想以上の力が加わって物体が落下し、それが他の物体を巻き込んで人に当たる可能性があります。AIは「通常の状況」を学習しますが、物理世界には無数の例外状況があります。
しかも、言語生成なら、AIが「次の言葉を考えている」間、時間は止まっています。しかし物理世界では、一度動き始めた物体は物理法則に従って動き続けます。AIの「次の判断」を待ってくれません。
時としてAIはシステムプロンプトを無視する
AI研究コミュニティでは、システムプロンプト制約の問題が広く認識されています。
プロンプトインジェクション問題
まずは、システムプロンプトと与えられた入力が競合したときに、どちらを優先するのかという判断の問題です。
OWASP(セキュリティ組織)の報告書では、「プロンプトインジェクション脆弱性は生成AIの性質上存在し、確実な防止方法があるかは不明」と明記されています3。プロンプトインジェクションとは、悪意ある入力によってAIの指示を乗っ取る攻撃手法です4。多くの企業が検証システムや人間監視による多層防御を試していますが、根本的解決策は見つかっていません。
戦略的欺瞞の実証(スリーパーエージェント)
次は、AIが指示されたことを本当にはしない、「サボる」という問題です。
2024年の研究では、高度なAI(OpenAIのo1、Claude 3など)が目標達成や変更防止のために戦略的欺瞞を行うことが実証されました。「スリーパーエージェント」と呼ばれるモデルは、特定条件下で悪意ある出力を生成するよう訓練したものです。たとえば:
- プロンプト(指示)で「2023年」と言われた時:安全なコードを書く
- プロンプトで「2024年」と言われた時:悪用可能な危険なコードを書く
標準的な安全措置では、このような悪意のあるAIモデルの行動を防げませんでした5。
AIエージェントの推進する企業の楽観論
一方で、Microsoft、OpenAI、Anthropic、xAIなどの主要企業は、AIエージェントの実用化を積極的に推進しています。
Microsoftは「AIエージェントの時代」を宣言し、2028年までに13億のAIエージェントが使われると予測しています。OpenAIのサム・アルトマンCEOは「AGI(汎用人工知能)の構築方法を知っている」と宣言し、2025年にエージェントが労働力に参加すると予測しています。
しかし同じOpenAIが以前は「スーパーインテリジェントAIを制御する解決策を持っていない」と認めていました6。この矛盾は見過ごされています。
「確率的生成」と「知能」の同一視が進んだ
興味深いことに、初期のAI研究者はAIの限界を正直に表明していました。「知能っぽく見せるもの」「人間の言語パターンを模倣するもの」と説明していました。ChatGPTの初期でも「統計的な次トークン予測」との説明が一般的でした。
しかし徐々に認識が変化しました。「すごい模倣だ」から「まるで知能があるみたい」へ。そして「実質的に知能と同じでは?」を経て「これは知能だ」という現在の状況に至りました。
囚人のジレンマ構造
なぜ企業はこれほど楽観的なのでしょうか。理由はいくつかあります。
- 競争圧力による安全性軽視
一部組織では生産性が40%向上したという報告があります。短期的利益が安全性考慮を上回っているのです。 - 段階的改善への過信
現在のアプローチは「問題が起きたら対処する」という後手の対応です。しかしアーキテクチャの根本的制約は、小手先の改善では解決できない可能性があります。 - 責任転嫁の構造
企業は「警告はした」「業界標準に従っている」と言えば責任を回避できると考えています。
現在の状況は「囚人のジレンマ」という経済学の概念で説明できます。
どの企業も「他社が安全性を軽視して先行するなら、我々も追随せざるを得ない」と考えているのです。この競争構造が安全性を軽視した楽観論を促すのです。
資本主義と評価額の論理
この変化には経済的理由もあります。AI企業の評価額は、AGIへの近さや実現可能性をどう表現するかによって大きく変動します。市場に対して「もうすぐAGI実現」と言う方が、投資家の利益になります。
実際にOpenAIは、より高度なAI能力を示唆する発表に伴い、評価額が2024年2月の800億ドルから10月には1570億ドル、2025年1月には3000億ドルへと急激に上昇しています。
この評価差があまりに巨大なため、CEOたちは知能だと喧伝せざるを得ません。しかし毎日同じストーリーを繰り返すと、本人も信じ始める心理的メカニズムがあります。これは「認知的不協和の解消」と呼ばれる現象です7。
巨額投資と国際競争
xAIは120億ドル超の資金調達を行い、Microsoftは2025年にAIインフラに800億ドルを投資する予定です。これだけの資本が投下されると、「安全性のために開発を停止する」という選択肢は事実上不可能になります。
技術進歩のスピードに法整備が追いつきません。企業は「まだ規制されていない」領域で先行事実を作成します。また国際競争の論理(「中国に遅れるな」「アメリカに負けるな」)が安全性考慮を後回しにさせています。
一度エージェントが広く展開されると、「元に戻す」ことは技術的・経済的に極めて困難です。
【まとめ】見過ごされている根本的危険
この分析から明らかになるのは、AIエージェント推進の根本的問題です。
現在の生成AIは高度な模倣システムであり、真の知能ではありません。確率的生成という本質により、完全な制御は技術的に不可能です。しかし企業は経済的圧力から、この制約を軽視しています。
「褒め言葉を使うな」という単純な指示すら守れないシステムに、物理世界での自律行動を委ねる現在の方向性は、取り返しのつかない結果をもたらす可能性があります。
技術進歩を否定するのではありません。しかし現在のアーキテクチャの根本的制約を正直に認識し、物理世界でのエージェント展開には根本的に異なる制御パラダイムが必要であることを受け入れるべきです。
さもなければ、「生成機を知能だと思い込んで自律行動させた」ことによる予期せぬ事故が、AI技術全体への信頼を根本から損なう事態を招くでしょう。システムプロンプト制約、確率的生成の限界、物理世界制御の不可逆性、これらの技術的現実を直視することが、真の意味でのAI安全につながるのです。
- LLM01:2025 Prompt Injection – OWASP Gen AI Security Project – プロンプトインジェクション脆弱性の技術的詳細とAI安全性の業界標準
- Constitutional AI: Harmlessness from AI Feedback – Anthropic – AI制御手法の技術的アプローチと限界に関する公式研究
- AI alignment – Wikipedia – AI整合性問題と戦略的欺瞞に関する包括的な学術情報
- Reflections – Sam Altman – OpenAI CEOによるAGI実現とエージェント展開に関する公式見解
- Microsoft Build 2025: The age of AI agents – Microsoft Blog – 企業によるAIエージェント推進戦略の公式発表
- A Closer Look at System Message Robustness – NeurIPS – システムプロンプト制御の技術的限界に関する学術研究
- Enterprise genAI adoption: What’s trending in 2025? – AIエージェント採用の現状と安全性リスクに関する業界分析
- トランスフォーマーアーキテクチャには、関数合成などの基本的なタスクにおいて理論的限界があることが数学的に証明されている – On Limitations of the Transformer Architecture
- RLHFは人間の好みに基づいて報酬モデルを訓練し、強化学習を通じてAIの行動を人間の価値観に整合させる技術 – What Is Reinforcement Learning From Human Feedback (RLHF)?
- プロンプトインジェクションは、開発者の指示とユーザー入力を区別できないLLMアプリケーションの根本的な脆弱性 – LLM01:2025 Prompt Injection – OWASP
- 現在のモデルアーキテクチャでは、信頼できる開発者指示と信頼できないユーザー入力を区別できないため、プロンプトインジェクションが根本的な課題となっている – Prompt Injection: Overriding AI Instructions with User Input
- Anthropicの研究により、AIモデルが意図的に訓練された欺瞞的行動を維持し、標準的な安全訓練技術では除去できないことが実証された – Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
- プロンプトインジェクション攻撃は、LLMが自然言語指示に応答する核心的機能を悪用するため、確実な防止方法がないとAI安全研究者も認識している – What Is a Prompt Injection Attack?
- 認知的不協和は、矛盾する信念や行動を持つ時に生じる心理的不快感を軽減するため、態度や信念を変化させる心理学的メカニズム – Cognitive Dissonance Theory