Claude Sonnet 4.5の大型アップデートと直前のエラー

  • Claude Sonnet 4.5、実はスペックは Sonnet 4と基本的に同じなのですが、強化学習でアルゴリズムを改善されています。
  • コンテクストの記憶を自己管理するようになり、連続した作業でも安定して動作するようになりました。
  • また、同じ指示で毎回同じ結果が返ってくる安定性も強化されています。
  • 頭脳は同じでも、要は使い方なんですね。

突然のエラーと直後の発表

2025年9月28日、Claudeを使おうとすると「会話が見つかりません」というエラーが表示されました。

局所的な不具合なのか、それとも何か別の理由があるのか、と思っていたところ、翌日には解消していました。

そして、一夜明けた9月30日、Claude Sonnet 4.5が発表されました1

エラーの正体:新モデルへの移行準備

振り返ってみると、あのエラーは新しいモデルへの移行準備だったのかもしれません。Claude Sonnet 4 から 4.5 への移行にあたって、データベースの変更があったようです。

Claude Sonnet 4.5登場の裏側 9月28日 エラー発生 9月30日 4.5発表 エラーは新モデルへの 移行準備の可能性

大規模なシステム更新では、サーバー側で新しいモデルへの切り替え作業が行われます。この過程で、セッション管理(会話の継続を管理する仕組み)が一時的に不安定になることがあります。チャットサービスは一つ一つのやりとりをデータベースに記録していますが、システムの更新中はこの紐付けがうまく機能しなくなることがあるのです。

Claude Sonnet 4.5の性能について

さて、新しく登場したClaude Sonnet 4.5 の性能は、どれくらい向上しているのでしょうか?

まず、基本的なスペック(コンテキストウィンドウ、料金、トークン数)に関しては、公開されている情報では明確な違いは見つかりませんでした。

Claude Sonnet 4.5 は、Claude Sonnet 4 と同じく、コンテキストウィンドウが200,000トークンで2、最大出力トークン数は64,000トークンです3

その分、Claude Sonnet 4.5の価格もClaude Sonnet 4と同じで、100万トークンあたり、入力3ドル、出力15ドルで提供されます4


上位モデルのClaude Opusは入力15ドル、出力75ドルですから、コストパフォーマンスは非常に高いといえます5

主な改善点は安定性

Sonnet 4.5の説明にある、「洗練された文書作成」の「今すぐ有効にする」を押すと、「チャット機能」の「アーティファクト」の設定が表示されました。

「アーティファクト(Artifacts)」は、コードやテキスト文書、ウェブサイトデザインなどを作成したときに、会話画面の横に専用ウィンドウで表示される機能です。アーティファクト機能自体は以前からあり、Sonnet 4.5では、「アーティファクト機能そのもの」への具体的な改善点は見つかりませんでした。

ただし、作られる成果物の「質」が大幅に向上したようです。

  • まず、長時間の作業中にClaudeが「話が見えなくなる」ことが減ったことがあげられます。従来は会話が長くなると文脈を見失ったり、途中で作業を諦めたりすることがありましたが、4.5では自分が使えるトークン数を把握しながら動くため、30時間もの長時間タスクを完遂できます。
  • また、安全性トレーニング、自己検証機能の強化によって、「こうしてほしい」と伝えたことを、余計な付け加えや勝手な判断なしに、より正確に実行してくれます。過度に従順だったり、逆に指示を無視したりする動作が減り、同じ指示を与えたときに、毎回同じような結果を返すようになったわけです。
Claude 4.5の技術的改善 アルゴリズム 改善 コンテキスト認識 トークン使用状況を リアルタイム追跡 並列処理能力 複数コマンド 同時実行 安全性強化 指示の正確な実行 攻撃耐性向上 タスク判断 自己検証機能 適切な保存判断 30時間タスク完遂可能 安定性・再現性の向上 強化学習による継続的改善

Anthropicは詳細な技術情報を公開していませんが、いくつかの改善点が確認されています。

  • 最も重要なのは強化学習によるコンテキスト認識の強化です6。モデルは自身のトークン使用状況をリアルタイムで追跡し、コンテキストウィンドウの残量を意識しながら動作するよう訓練されています。
  • 並列処理能力も向上しました。複数のbashコマンドやファイル読み込みを同時実行し、投機的検索を並行して行います7コンテキストウィンドウの空き状況に応じて並列処理の度合いを調整する判断力も備えています。
  • 安全性トレーニングも強化されました。追従性、欺瞞、権力追求、妄想的思考の助長といった問題行動が大幅に減少し、プロンプトインジェクション攻撃への耐性も向上しています8
  • タスク判断能力では、作業途中で自分の成果物をテストする自己検証機能、適切なタイミングで情報を外部ファイルに保存する判断力、フィードバックループを作成する能力が強化されています。

Devinの開発元であるCognitionによると、これらの改善は主に強化学習トレーニングによるものですが、まだ発展途上の段階にあるとのことです9。根本的なアーキテクチャの変更ではなく、同じ基盤の上でトレーニング手法を改善することで性能を引き上げたと考えられます。

つまり、4.5は4と同じハードウェア的な制約(コンテキスト長、料金)のまま、アルゴリズムやモデルの改善によって性能を大幅に向上させたバージョンと言えます。

開発者の評価

Claude Sonnet 4.5の発表後、開発者コミュニティから具体的な使用報告が寄せられています。

確かに、プロンプトの指示をより正確に守る能力と、同じプロンプトで一貫した結果を得られる予測可能性が改善したと挙げられています。大規模なコードベースでの動作も改善され、回答が簡潔で要点を絞ったものになりました。

速度面では、大規模なコードレビューを2分で完了したという報告があります。同じタスクをGPT-5 Codexで実行すると10分かかったとのことです10。また、Opus 4.1では解決できなかったバグを約20分で修正できた事例も報告されています11

企業からの評価では、Cursor CEOが「長時間のタスクにおいて最先端のコーディング性能」と評価し12、Windsurf CEOは「新世代のコーディングモデル」と表現しています13。金融、法律、医療、科学技術分野の専門家からも、専門分野の知識と推論能力の向上が認められています14

競合との比較では「GPT-5 Codexよりもコーディングに適している」という評価が見られる一方、Gemini 3の登場が噂される中で首位の座がどれだけ続くかは不透明です。性能向上にもかかわらず料金が据え置かれた点は、開発者から肯定的に受け止められています。

ベンチマークスコア

ベンチマークスコアでも、改善が見られます。

  • 数値的には、SWE-bench Verifiedという実際のソフトウェア開発問題を解くテストで82.0%という高スコアを達成しました15。これは従来のClaude Opus 4やSonnet 4を大きく上回る結果です。
  • OSWorldというベンチマークでは61.4%を記録しました16。これは実際のコンピューター操作タスクを評価するもので、わずか4か月前のSonnet 4の42.2%から大幅な改善です。ウェブサイトのナビゲーション、スプレッドシートへの入力、複雑なタスクの完遂といった、人間が行うような作業をAI自身が実行できます。
  • さらに驚くべきは、その持続力です。初期試験では最大30時間にわたって自律的にコーディングを継続できることが確認されています17。4か月前のClaude Opus 4が7時間だったことを考えると、4倍以上の飛躍です18

関連製品のアップデート

Claude Sonnet 4.5の発表と同時に、関連製品も大きく進化しました。

  • アプリ版Claudeでは、会話内でコード実行やファイル作成が可能になりました。スプレッドシート、スライド、ドキュメントなどを直接作成できます。
  • Claude Codeにはチェックポイント機能が追加され、作業の進捗を保存して任意の状態にロールバックできるようになりました。ネイティブのVS Code拡張機能も提供され、統合開発環境で直接Claudeを利用できます。
  • Claude APIには、長時間動作するエージェント向けにコンテキスト編集機能メモリツールが追加されました。古いコンテキストを自動的にクリアし、コンテキストウィンドウ外に情報を保存できます。
同時アップデート製品 Claude Sonnet 4.5 Claude Code チェックポイント VS Code拡張 Claude API コンテキスト編集 メモリツール Claude アプリ コード実行 ファイル作成 Chrome拡張 Max限定 ブラウザ操作

5日間限定の実験「Imagine with Claude」

「Imagine with Claude」という研究プレビューが5日間限定で公開されました19。Claudeがリアルタイムでソフトウェアを生成する様子を体験できます。事前に決められた機能やコードは一切なく、Claudeがその場でソフトウェアを作成し、ユーザーとのやり取りに応じて適応していきます。

これはMaxプラン加入者のみが利用でき、claude.ai/imagineからアクセスできます(10月3日まで)。

まとめ

9月28日のエラーは、翌日の大型アップデートへの準備作業だったと考えられます。Claude Sonnet 4.5は、SWE-bench Verified 82.0%、OSWorld 61.4%という高スコアを達成し、最大30時間の自律的なコーディング継続を実現しました。価格は据え置きで100万トークンあたり入力3ドル、出力15ドルです。プロンプトインジェクション攻撃への耐性が強化され、Claude Code、Claude API、アプリ版Claudeも同時にアップグレードされました。

  1. Anthropicは米国時間9月29日(日本時間9月30日)にClaude Sonnet 4.5を発表しました。 – Anthropic、最新鋭モデル「Claude Sonnet 4.5」を発表
  2. Claude Sonnet 4と4.5はどちらも標準で200,000トークン(20万トークン)のコンテキストウィンドウを持ちます。特定のベータヘッダー(context-1m-2025-08-07)使用時には1Mトークンまで拡張可能です。 – Models overview – Claude Docs
  3. Claude Sonnet 4.5は最大64,000トークンの出力をサポートしています。これはコード生成や計画立案に特に有用です。 – Claude Sonnet 4.5 \ Anthropic
  4. Claude Sonnet 4.5の料金は100万トークンあたり入力3ドル、出力15ドルで、前モデルClaude Sonnet 4と同一価格です。 – Anthropic、最新鋭モデル「Claude Sonnet 4.5」を発表
  5. Claude Opus(Opus 4.1)の料金は100万トークンあたり入力15ドル、出力75ドルです。 – Anthropic「Claude Sonnet 4.5」発表
  6. Claude Sonnet 4.5は会話全体を通じてトークン使用状況を追跡し、各ツール呼び出し後に更新を受け取ります。このコンテキスト認識により、早期のタスク放棄を防ぎ、長時間実行タスクでより効果的な実行が可能になります。 – What’s new in Claude Sonnet 4.5 – Claude Docs
  7. Claude Sonnet 4.5は並列ツール呼び出しをより効果的に使用し、調査中に複数の投機的検索を同時実行し、複数のファイルを一度に読み込んでより高速にコンテキストを構築します。 – What’s new in Claude Sonnet 4.5 – Claude Docs
  8. Claude Sonnet 4.5は、Anthropicのこれまでで最も整合性の取れたフロンティアモデルです。機能向上と広範な安全性トレーニングにより、追従性、欺瞞、権力追求、妄想的思考を助長する傾向といった懸念される動作を大幅に削減しました。また、プロンプトインジェクション攻撃に対する防御も大きく進歩しました。 – Introducing Claude Sonnet 4.5 \ Anthropic
  9. Cognitionの技術ブログによると、コンテキスト認識は新しいパラダイムであり、モデル開発の新しい方向性を示しています。これはAnthropicからの明確な新方向であり、将来的にモデルがよりコンテキストを認識するようになることを指し示していますが、「RLトレーニングはまだ完全に進んでいない段階」とのことです。 – Cognition | Rebuilding Devin for Claude Sonnet 4.5
  10. Every社のチームによる実際のテスト結果として、Claude Sonnet 4.5は大規模なコードベースの新機能に関する包括的なコードレビューを約2分で完了し、GPT-5 Codexは同じタスクに約10分かかったと報告されています。 – Vibe Check: Claude Sonnet 4.5
  11. Kieran氏がCora(アプリケーション)で発生したバグについて、Opus 4.1では全く解決できなかったものを、Claude Sonnet 4.5は約20分で解決したと報告しています。 – Vibe Check: Claude Sonnet 4.5
  12. Cursor CEOのMichael Truellは、Claude Sonnet 4.5について「最先端のコーディング性能を代表しており、特に長期間のタスクにおいて優れている」と述べています。 – Anthropic launches Claude Sonnet 4.5
  13. Windsurf CEOのJeff Wangは声明の中で、Claude Sonnet 4.5は「新世代のコーディングモデル」を代表すると述べています。 – Anthropic launches Claude Sonnet 4.5
  14. 金融、法律、医学、STEM分野の専門家による評価では、Sonnet 4.5はOpus 4.1などの古いモデルと比較して、ドメイン固有の知識と推論の点で大幅に優れていると評価されました。 – Claude Sonnet 4.5 発表関連情報まとめ
  15. SWE-bench Verifiedでは、標準設定で77.2%、高計算設定で82.0%のスコアを達成しています。 – Anthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表
  16. Claude Sonnet 4.5はOSWorldで61.4%を記録し、前世代のSonnet 4の42.2%を上回りました。 – Claude 4.5 の概要|npaka
  17. Anthropicの研究者David Hershey氏によると、企業顧客との初期試験で最大30時間の自律的なコーディング継続が確認されました。 – Anthropic「Claude Sonnet 4.5」発表
  18. Claude Opus 4は楽天での実証実験で約7時間にわたって複雑なソフトウェア開発タスクを自律的に実行しました。 – MIT Tech Review: アンソロピックが「Claude 4」発表
  19. 「Imagine with Claude」は2025年9月29日から5日間(10月3日まで)、Maxプラン加入者向けに提供されました。 – 🚀 Claude Sonnet 4.5が爆誕!