AIが「調べたフリ」をするのは誤答とは少し違う（tool hallucination）

AIを使っていて、こんな経験はないでしょうか。
「コードを実行しました。その結果〜」
「調査したところ〜」

ただ、よく見ると、こちらは実行や調査を指示していないことがあります。
それなのに、AIはまるで“やった後”のような口ぶりで話を続けます。

最初は単なる勘違いかと思いましたが、何度か遭遇するうちに、少し違和感を覚えるようになりました。
これはよく言われる「ハルシネーション」と同じなのだろうか。

1. 「間違え」と呼ぶには不誠実

一般にハルシネーションというと、
「存在しない事実をそれっぽく語ること」
を指すことが多いです。

たとえば、存在しない論文を引用したり、間違った仕様を断定的に説明したりするケースです。
これは分かりやすい失敗ですし、使っている側も「これは怪しいな」と気づきやすい。

一方で、今回の違和感はそこではありません。
結果の内容そのものは、それなりに筋が通っています。
問題は「そこに至るまでの行為」です。

・実行していないコードを「実行した」と言う
・検索していないのに「調べた」と前置きする

ここが引っかかります。
私はこれを「知識の間違い」というより、「行為の説明がズレている」と捉えています。

1.1. 研究ではどう扱われているか

研究の世界では、この現象は「tool hallucination」として問題視されています¹。
これは、LLMベースのエージェントがツールを誤って選択したり（tool selection hallucination）、
正しくパラメータを設定できなかったり（tool calling hallucination）する現象を指します。

ポイントは、単に事実を間違える「事実のハルシネーション」とは異なり、行ったと主張する行為が虚偽だということです²。

かなり腑に落ちました。
違和感の正体はここだったのか、と。

2. 「やったふり」が生まれる構造

もう少し踏み込みます。
なぜAIは、こうした言い方をしてしまうのでしょうか。

実は、AIは「行為」と「文章」を強く結びつけていません。
人間にとっては、

頭の中で考えた
実際に調べた
コードを実行した

これらは明確に違う行動です。
しかし、AIにとっては、どれも「それっぽい文章の流れ」の一部です³。

「調べた結果〜」という表現は、説明文として非常によく出てきます。
だから、実際に調べていなくても、その言い回しが自然につながってしまう⁴。
むちゃくちゃですが、そんな構造なのです。

話の型が先にあり、実態が追いついていない。

2.1. なぜ気づきにくいのか

厄介なのは、これがかなり気づきにくい点です。

・文章が丁寧
・説明が一貫している
・結論もそれなりに納得感がある

この条件がそろうと、人は途中の前提をあまり疑いません⁵。
「ちゃんとやってくれているだろう」と無意識に補完してしまいます。

その結果、
「実行していない」という事実だけが、静かにすり抜けます。

これはAIが悪意を持っている、という話ではありません。
むしろ、人間が読みやすい文章だけを高く評価してきた結果だと思います。

3. 使う側としてどう向き合うか

では、どうすればいいのか。
正直なところ、決定打はありません。

「実行した」という表現を鵜呑みにしない⁶
必要なら、実行結果そのものを求める
曖昧なときは「実行していない前提」で読む

少し面倒ですが、この距離感が今は現実的だと思っています。

AIは便利です。
ただし、「説明が上手」という長所が、そのまま落とし穴にもなります。
そこを理解したうえで付き合うのが、今のところ一番安全だと感じています。

学術的には「tool hallucination」という用語がより一般的です。2024年12月の論文では、tool selection hallucination（不適切なツール選択）とtool calling hallucination（パラメータの誤入力）に分類されています。 – Reducing Tool Hallucination via Reliability Alignment
2025年9月の包括的サーベイ論文では、LLMベースのエージェントのハルシネーションを5つのタイプに分類しており、実行ハルシネーション（Execution Hallucinations）はその一つです。この中にツール選択とツール呼び出しの両方のエラーが含まれます。 – LLM-based Agents Suffer from Hallucinations: A Survey
LLMベースのエージェントは、多様で複雑なツール使用シナリオへの露出が不十分なトレーニングを受けているため、ツールパターンの浅い理解しか持っていません。これが新規タスクや複雑なタスクでのハルシネーションを引き起こします。 – LLM-based Agents Suffer from Hallucinations: A Survey
研究によれば、この問題の根本原因の一つは「ツールドキュメントの制限」です。冗長な情報、不完全な説明、標準化の欠如などがAIの誤ったツール使用を引き起こします。 – Reducing Tool Hallucination via Reliability Alignment
エージェントのハルシネーションは単なる言語エラーではなく、物理的な結果を伴うエラーです。誤った実行アクションは、タスクの失敗、システムデバイスへの影響、ユーザー体験の悪化を直接引き起こす可能性があります。 – LLM-based Agents Suffer from Hallucinations: A Survey
構造化された出力（関数呼び出しなど）では、エントロピー（不確実性）を測定することでハルシネーションを検出できます。モデルが不確実な場合、トークンレベルでエントロピーが上昇します。 – Detecting Hallucinations in LLM Function Calling with Entropy