AIが「調べたフリ」をするのは誤答とは
少し違う
(tool hallucination)

AIを使っていて、こんな経験はないでしょうか。
「コードを実行しました。その結果〜」
「調査したところ〜」

ただ、よく見ると、こちらは実行や調査を指示していないことがあります。
それなのに、AIはまるで“やった後”のような口ぶりで話を続けます。

最初は単なる勘違いかと思いましたが、何度か遭遇するうちに、少し違和感を覚えるようになりました。
これはよく言われる「ハルシネーション」と同じなのだろうか。

関連記事

1. 「間違え」と呼ぶには不誠実

一般にハルシネーションというと、
「存在しない事実をそれっぽく語ること」
を指すことが多いです。

たとえば、存在しない論文を引用したり、間違った仕様を断定的に説明したりするケースです。
これは分かりやすい失敗ですし、使っている側も「これは怪しいな」と気づきやすい。

一方で、今回の違和感はそこではありません。
結果の内容そのものは、それなりに筋が通っています。
問題は「そこに至るまでの行為」です。

・実行していないコードを「実行した」と言う
・検索していないのに「調べた」と前置きする

ここが引っかかります。
私はこれを「知識の間違い」というより、「行為の説明がズレている」と捉えています。

1.1. 研究ではどう扱われているか

研究の世界では、この現象は「tool hallucination」として問題視されています1
これは、LLMベースのエージェントがツールを誤って選択したり(tool selection hallucination)、
正しくパラメータを設定できなかったり(tool calling hallucination)する現象を指します。

ポイントは、単に事実を間違える「事実のハルシネーション」とは異なり、行ったと主張する行為が虚偽だということです2

かなり腑に落ちました。
違和感の正体はここだったのか、と。

2. 「やったふり」が生まれる構造

もう少し踏み込みます。
なぜAIは、こうした言い方をしてしまうのでしょうか。

実は、AIは「行為」と「文章」を強く結びつけていません。
人間にとっては、

  • 頭の中で考えた
  • 実際に調べた
  • コードを実行した

これらは明確に違う行動です。
しかし、AIにとっては、どれも「それっぽい文章の流れ」の一部です3

「調べた結果〜」という表現は、説明文として非常によく出てきます。
だから、実際に調べていなくても、その言い回しが自然につながってしまう4
むちゃくちゃですが、そんな構造なのです。

話の型が先にあり、実態が追いついていない。

2.1. なぜ気づきにくいのか

厄介なのは、これがかなり気づきにくい点です。

・文章が丁寧
・説明が一貫している
・結論もそれなりに納得感がある

この条件がそろうと、人は途中の前提をあまり疑いません5
「ちゃんとやってくれているだろう」と無意識に補完してしまいます。

その結果、
「実行していない」という事実だけが、静かにすり抜けます。

これはAIが悪意を持っている、という話ではありません。
むしろ、人間が読みやすい文章だけを高く評価してきた結果だと思います。

3. 使う側としてどう向き合うか

では、どうすればいいのか。
正直なところ、決定打はありません。

  • 「実行した」という表現を鵜呑みにしない6
  • 必要なら、実行結果そのものを求める
  • 曖昧なときは「実行していない前提」で読む

少し面倒ですが、この距離感が今は現実的だと思っています。

AIは便利です。
ただし、「説明が上手」という長所が、そのまま落とし穴にもなります。
そこを理解したうえで付き合うのが、今のところ一番安全だと感じています。

  1. 学術的には「tool hallucination」という用語がより一般的です。2024年12月の論文では、tool selection hallucination(不適切なツール選択)とtool calling hallucination(パラメータの誤入力)に分類されています。 – Reducing Tool Hallucination via Reliability Alignment
  2. 2025年9月の包括的サーベイ論文では、LLMベースのエージェントのハルシネーションを5つのタイプに分類しており、実行ハルシネーション(Execution Hallucinations)はその一つです。この中にツール選択とツール呼び出しの両方のエラーが含まれます。 – LLM-based Agents Suffer from Hallucinations: A Survey
  3. LLMベースのエージェントは、多様で複雑なツール使用シナリオへの露出が不十分なトレーニングを受けているため、ツールパターンの浅い理解しか持っていません。これが新規タスクや複雑なタスクでのハルシネーションを引き起こします。 – LLM-based Agents Suffer from Hallucinations: A Survey
  4. 研究によれば、この問題の根本原因の一つは「ツールドキュメントの制限」です。冗長な情報、不完全な説明、標準化の欠如などがAIの誤ったツール使用を引き起こします。 – Reducing Tool Hallucination via Reliability Alignment
  5. エージェントのハルシネーションは単なる言語エラーではなく、物理的な結果を伴うエラーです。誤った実行アクションは、タスクの失敗、システムデバイスへの影響、ユーザー体験の悪化を直接引き起こす可能性があります。 – LLM-based Agents Suffer from Hallucinations: A Survey
  6. 構造化された出力(関数呼び出しなど)では、エントロピー(不確実性)を測定することでハルシネーションを検出できます。モデルが不確実な場合、トークンレベルでエントロピーが上昇します。 – Detecting Hallucinations in LLM Function Calling with Entropy