クラウドAIの性能に一喜一憂しても仕方ない（応答の変動要因）

クラウドAIの応答品質は常に変動しており、同じモデルでも先週と今週で動作が異なることがある
バックエンドではシステムプロンプトの修正やフォールバック切り替えなど、ユーザーに見えない調整が随時行われている
バージョンアップは特定の能力を高める一方で別の能力を下げることがあり、大規模障害も月に複数回起きる

生成AIの性能に一喜一憂しても仕方がないんだね。
数か月のうちにどんどん入れ替わるから。

1. AIの性能は日々変動している

ChatGPTやClaudeの性能について、どれがよいとか、悪いとかは一概に言えません。
というのも、生成AIの応答品質は、常に変動するものだからです。

電力はコンセントに刺せば一定の電圧が来ますが、クラウドAIの性能はそうではありません。
これは、バージョンの更新が頻繁にあるから、というだけではありません。
同じモデルでもいろんな条件によって、応答が切り替わります。

1.1. 性能は測りにくい

そもそも、生成AIの出力する自然言語は、品質を客観的に測りにくい性質があります。

文章の質や推論の深さは主観と文脈に依存します。
同じプロンプトを送って出力を比べてみなければ、性能変化に気づくのは難しいでしょう。

生成AIの性能を考えるときには、不安定さを前提に考える必要があります。
これはサービス品質の問題というより、現在のLLM展開の構造的な特性です。

1.2. 複雑なシステムとサイレントアップデート

生成AIには常に細かな調整があります。

モデルのバージョンアップ以外にも、システムプロンプトの修正、安全フィルタの閾値変更、プロンプトキャッシュの挙動調整¹、ロールアウト中の段階的モデル切り替えがそれにあたります。

ユーザーと接する「生成AI」は、さまざまなシステムの組み合わせによって動いています。
頭脳となる言語モデルの重みファイルだけではなく、推論を実行するGPU群、リクエストを振り分けるロードバランサー、プロンプトを前処理するシステム、そして随時書き換えられるシステムプロンプトやサンプリングパラメータなど、これらすべてが「AIの性能」を構成しています。

モデルそのものが更新されなくても、推論時のちょっとした調整で出力の内容は変わります²。

ユーザーから見れば「同じモデル」でも、バックエンドでは異なるチェックポイントが走っている期間が存在するのです。
実際にどのバリアントが返答したかをユーザーが確認する手段はほぼありません。

2. 人気になると性能は落ちる

同一の生成AIモデルを使っていても、先週と今週で動作が異なることは珍しくありません。

たとえば、利用者の集中はAIの性能には直結します。
高トラフィック時には推論精度の低いモデルや古いバージョンに、自動的に切り替わる「フォールバック」があるからです。

「いつもより時間がかかっています。まもなく再試行します」という表示が出て来て時間がかかったり、なんとなく回答が短かったり、散漫だったり。

2.1. インフラ起因の障害が記録に残るとき

性能変動の中には、公式のステータスページに記録されるほど明確な障害もあります。

2024年12月4日、グローバルロードバランサーの設定ミスにより、4分間にわたってAPIリクエストの100%がエラーを返す事態が発生しました³。
同日さらに別の問題として、DNSキャッシュシステムのアップグレードが原因でリクエストが30秒間ハングするようになり、約1時間半の間にAPIリクエストの45%がクライアント側のキャンセルとして処理されました。

同年12月26日にはクラウドプロバイダのデータセンターで電源障害が発生し、ChatGPT・Sora・各種APIで90%を超えるエラー率を記録。完全復旧まで数時間を要しました⁴。
12月11日にも別の大規模障害が起きており、新しいテレメトリサービスの展開がKubernetesコントロールプレーンに予期しない負荷をかけてカスケード障害を引き起こしています。
すべてのOpenAIサービスが4時間以上にわたって大幅な性能低下または完全停止の状態に置かれました⁵。

一ヶ月の間に複数の大規模障害が記録されているこの事実は、クラウドAIの性能変動が例外的なイベントではなく、運用上の常態に近いことを示しています。

3. 新バージョンと性能の劣化

「GPT 5.2」や「Claude Sonnet 4.6」など、言語モデルにはバージョンがあります。

バージョンアップによって性能が向上する一方ならよいのでしょうが、性能を上げようとする新しい機能が、しばしば別の性能低下を引き起こします。

安全性強化のアップデートによって、有用な回答を減ってしまうという副作用を持つことがあります。
長文処理や多段階推論の実装変更が、既存の用途で予期しない切り詰めを引き起こすケースもあります。

量子化⁶やスペキュレーティブデコーディング⁷といった推論最適化の導入は速度を上げますが、実装の違いにより出力が変わることがあります。

バージョンアップ後には、フォーラムやSNSでは「急に頭が悪くなった」と報告がよく見られます。

たとえば、GPT-4.1のリリース後に、OpenAIの開発者コミュニティには、性能劣化を訴えるスレッドが立ちました。
「ここ30日で顕著な知能の劣化に気づいた。複雑な指示やツール呼び出しを伴う処理でパフォーマンスが大幅に低下し、問題が多発している」という投稿です⁸。
あるいは、2025年にはChatGPT-5へのアップデート後にも、「GPT-4のときは数時間後にしか起きなかった会話ウィンドウの応答遅延が、アップデート後は早い段階で発生するようになった」という報告がありました。

OpenAIの Peter Wellinder氏は、「鈍くしたという事実はない。むしろ新バージョンは前のものより賢くなっている」と反論し⁹、「ヘビーユーザーになるほど、以前は気にならなかった問題に気づくようになる」のではないか、という見方を示しました。

3.1. 研究者が数字で確かめた変動

「気のせいではないか」という疑問に、研究者が定量的に答えたケースがあります。

スタンフォード大学とUCバークレーの研究チームが2023年に発表した論文「How is ChatGPT’s behavior changing over time?」は、GPT-3.5とGPT-4を2023年3月と6月の2時点で比較し、同一モデルでも性能が大きく変動することを示しました¹⁰。
この研究では、モデルへの更新が特定の能力を高める一方で別の能力を下げうることを示しています。
論文の共著者である James Zou氏は「モデルの挙動が時間とともに変化するという体験談を多くのユーザーから聞いてきた。それを定量的に評価しようというのが研究の動機だった」と述べています。

たとえば、最も極端な素数判定のタスクでは、GPT-4が素数を正しく識別できる割合は3月時点で97.6%でしたが、6月には2.4%まで落ちていました。
向上と劣化が同時に、異なるモデルで起きていたのです。

プロンプトキャッシュとは、繰り返し使われるシステムプロンプトやコンテキストの計算結果を保存・再利用することで、レイテンシを下げる仕組み。キャッシュのヒット率や保存期間の変更は、応答速度や一貫性に影響する。 – Anthropic: Prompt caching
温度パラメータ（temperature）は、モデルが次のトークンを選ぶ際の確率分布の「なだらかさ」を制御する値。0に近いほど最も確率の高いトークンを選びやすくなり（決定論的）、高いほどランダムな選択が増える（多様な出力）。同じプロンプトでも温度が変わると出力の文体・語彙・長さが変化する。 – Hugging Face: Text generation strategies
OpenAI公式ステータスページに記録されたインシデント。ロードバランサー誤設定による完全停止（15:48〜15:52 PT）と、DNSキャッシュ障害による30秒ハング（16:07〜17:37 PT）が同日に連続発生した。 – OpenAI Status: API and ChatGPT Performance Degradation
Azureデータセンターの電源障害が原因。OpenAIのデータベースはグローバルにレプリケートされているが、リージョン全体のフェイルオーバーにはクラウドプロバイダによる手動介入が必要で、規模の大きさから復旧が長引いた。ChatGPTの完全復旧は同日20:16 PT。 – OpenAI Status: December 26 Incident
OpenAI公式ポストモーテムによると、テレメトリ変更のステージング環境テストでは問題が検出されなかった。DNSキャッシュの遅延により変更適用から障害発生まで時間差があり、原因特定が遅れた。 – OpenAI Status: API ChatGPT and Sora Facing Issues December 11
量子化とは、モデルの重みをFP32などの高精度浮動小数点からINT8やINT4などの低精度整数に圧縮する技術。メモリ使用量と推論速度が改善される一方、精度の丸め誤差が生じる。INT8では品質低下は軽微（精度低下1〜2%程度）だが、INT4では長文コンテキストで最大59%の精度低下が報告されている。 – ACL Anthology: Does quantization affect models performance on long-context tasks
スペキュレーティブデコーディングとは、小さなドラフトモデルが複数トークン候補を先読み生成し、大きなターゲットモデルが並列検証する推論高速化技術。理論上は出力の確率分布をターゲットモデルと同一に保つことが数学的に保証されているが、ドラフトモデルの選択やキャリブレーションの違いによって実際の出力が変わる場合もある。 – Google Research: Looking back at speculative decoding
2025年9月にOpenAI開発者フォーラムに投稿されたスレッド。GPT-4.1をリリース当初から使用しているユーザーが、直近30日間での急激な性能低下を報告した。 – OpenAI Developer Community: GPT 4.1 Degradation over the past 30 days
2023年7月13日のX投稿。Wellinder氏は同時に「ヘビーユーザーほど以前は気にならなかった問題に気づくようになる」という仮説を示し、反例の投稿を呼びかけた。 – VentureBeat: OpenAI product leader denies claims GPT-4 has gotten lazier and dumber
Lingjiao Chen, Matei Zaharia, James Zou（スタンフォード大学・UCバークレー）による論文。arXivに2023年7月掲載。数学・コード生成・センシティブ質問対応・視覚的推論など複数タスクで評価し、モデルの挙動が短期間で大きく変化することを定量的に示した。 – arXiv: How is ChatGPT’s behavior changing over time?