Mythos級AIの三日天下（高性能AIのリスク管理）

Claude Fable 5.0は、「最高性能のClaude Mythosを安全にしたモデル」として公開されました。
しかし、公開後わずか３日で米国政府によって「輸出規制」の対象になりました。

<svg class="eyecatch-svg" viewBox="0 0 192 192" xmlns="http://www.w3.org/2000/svg">
<rect x="0" y="0" width="192" height="192" rx="32" ry="32" fill="#FFFFFF"/>
<path d="M96 46 L138 60 L138 104 Q138 130 96 150 Q54 130 54 104 L54 60 Z" fill="#3F51B5"/>
<circle cx="96" cy="92" r="30" fill="#FFFFFF"/>
<g fill="none" stroke="#FF5252" stroke-width="8" stroke-linecap="round">
<path d="M102.2 75.1 A18 18 0 1 1 89.8 75.1"/>
<line x1="96" y1="68" x2="96" y2="92"/>
</g>
</svg>Mythos級AIの三日天下<br class="chiilabo-br is-on">（高性能AIのリスク管理）

「Mythos（神話）」や「Fable（寓話）」という名前は、Opus（作品）より大きな等級として売り出されました。
しかし、それが三日で取り上げられた、という事実によって、本当に「神話」に変わってしまいそうです。

「AI、強すぎて禁止」という事態が到来しました。

1. 三日で「禁輸対象」になった

2026年6月9日にAnthropicが一般公開したClaude Fable 5は、6月12日の米東部時間午後5時21分、米政府の指令で停止されました。

公開からおよそ三日。
能力を腰を据えて検証するより先に、「入手不能」という希少性が付け加えられました。

Claude Fable 5は、Anthropicがこれまで一般提供した中で最も能力の高いモデルとして登場しました¹。

同じ土台のモデルから安全装置を一部外した上位版がMythos 5で、こちらは限られたサイバー防御者向けです。
しかし、公開から三日後、商務省はラトニック長官名で「輸出管理」の指令を出しました²。
内容は、米国内外を問わず外国籍者がFable 5とMythos 5に触れることの禁止で、対象にはAnthropicの外国籍社員まで含まれます。

国籍で線を引く指令を完全に守るには、全ユーザー向けに止めるしかありません。
外国人へのアクセス遮断という命令が、結果として全面停止に化けました³。

1.1. 未知の脆弱性を見つける能力の衝撃

Anthropicは公開にあたり、「Claude Mythosのセキュリティ上のインパクト」について、喧伝していました。

Anthropicが「Claude Mythos」のセキュリティ性能を売り込んだ起点は、2026年4月、サイバーセキュリティ向けのフロンティアモデルとしてMythos Previewを発表し、防御業務向けに限定公開する「Project Glasswing」を立ち上げたことでした。
Glasswingは約50社の重要インフラ提供者に早期アクセスを与え、悪用される前に基幹ソフトの脆弱性を自律的に見つけさせる取り組みで、参加にはAWS、Apple、Google、Microsoft、CrowdStrike、NVIDIA、Palo Alto Networks、JPMorganChaseなどが名を連ねました。

Anthropicは、これら約50のパートナーがMythos Previewを使い、「世界で最も重要なソフト群から高・重大(high/critical)の脆弱性を1万件超発見した」と公表しました⁴。
具体例として、Cloudflareは重要経路のシステムで約2,000件の不具合を検出し、うち400件が高・重大で、誤検知率は人間のテスターより良好だったとされ、複数のパートナーは発見ペースが10倍以上に上がったと報告しました。

あるパートナー銀行は、何者かが顧客のメールを侵害してなりすまし電話をかけた事案で、150万ドルの不正送金を未然に防いだと紹介されています。
内部テストでは、広く使われるすべての主要OSとブラウザで未知のゼロデイ脆弱性が見つかったとされ、Anthropicは最大1億ドルの利用クレジットとオープンソースのセキュリティ団体への400万ドルの寄付を添え、244ページのシステムカードを公開してCISAや商務省にも事前説明しました。

「Claude Mythosの脆弱性を見つける速さに、検証・開示・修正の速度のほうが追いつかない」という警告は、能力自慢のまさに「神話」となり、大きな社会的なハレーションを引き起こしました。

300ページを超えるシステムカードで、サイバーや生物分野での悪用リスクを自己申告していました。

安全への投資を示す材料が、同時に「危険なモデルである」という公式の裏書きにもなります。

1.2. 「ジェイルブレイク」と「ユニーバサルジェイルブレイク」

政府が問題視したのは、特定のコードベースを読ませて不具合を直させる、という形で安全制限を回避できた一例でした⁵。

「ジェイルブレイク(jailbreak)」とは、本来モデルが断るはずの作業をさせるために安全機構をかいくぐる行為を指します。
Fable 5は、サイバー攻撃に使えそうな依頼を検知すると応答を弱いOpus 4.8に切り替える設計で、「ソフトの脆弱性を探す」類の作業はまさにその制限対象です。
ところが脆弱性の発見は、見つけて塞げば防御、見つけて突けば攻撃という、同じ技術が善悪どちらにも効く「デュアルユース(dual-use)」の典型で、ここに線を引くのが難しい。

それに対して、Anthropicは、それは限られた状況でしか効かない「非ユニバーサル」な手口で、出てきたのも既知の軽微な脆弱性が数件、つまり中核の防御を破ったわけではない、と反論しています。
本当に警戒すべき、生物兵器やサイバー攻撃の手順までまとめて引き出せる「ユニバーサルジェイルブレイク」のほうは今のところ見つかっていません。

また、Anthropicは、指摘された事例は、同様の作業がGPT-5.5など他の公開モデルでも脱獄なしにでき、セキュリティ技術者が日常的にやっている水準にすぎない、と主張しています⁶。

防御側が毎日使うようなありふれた能力を「脱獄成功」と見なして数億人規模のモデルを丸ごと止めるなら、同じ理屈はGPT-5.5にも当てはまり、フロンティアモデルはどれも公開を続けられなくなるからです。

ただし、どちらの言い分も、再現可能な技術記録が公開されておらず、第三者が確かめられない状態にあります⁷。

検証できない論争は、事実が確定しない空白に解釈が流れ込みます。
「とんでもなく危険なものが政府に止められた」という筋書きは、止められたという一点さえあれば、証拠なしに自走します。

「Mythos級」という表現が、「予言の自己実現」になったのかもしれません。

2. 見えない弱体化

実は、公開直後には真逆の不満の声もありました。

AI開発に関わるコードを検知すると、警告なしに弱体化した出力を返す仕様です⁸。
研究者や元社員が数時間で反発し、Anthropicは判断を誤ったと認めて、24時間以内にこの仕様を撤回しました⁹。

透明性は安全のための規範ですが、同じ開示が介入の取っ掛かりにもなります。
黙って出せばよかった、という反応が出るのはこのためです。

ただ、それを是とすれば、より危険なモデルを無開示で市場へ流す行為を推奨することになり、規範そのものが崩れます。
Anthropicの自己申告は、神話の脚本を半分は自分で書いた格好です。

2.1. 前例は一度できると、二度目は静かに来る

主要なAI企業が、連邦政府の介入で公開済みモデルを取り下げたのは、これが初めてとみられます¹⁰。

Anthropicが受け取ったのは金曜夜の口頭指令で、書面の技術的証拠も、従う前に争う機会も、復旧の道筋もありませんでした。
背景では制度が動いています。
トランプ政権では主要AI企業に最先端モデルを30日間のレビューへ自主提出させる大統領令に署名し、超党派の法案草案はAnthropicやOpenAI、Googleを含む開発者に第三者監査を課そうとしています¹¹¹²。

一度実行された手続きは、次回から既定路線になります。
今回は公開声明と反論でよく見えました。
枠組みが整えば、停止は声明を伴わずに起きるようになります。

これが、「AI投資ブーム」の終焉の合図になる、という見方もあります。

3. 触れた者の証言だけが残る

「神話」とは、誰も確かめられないまま語り継がれる話のことです。

「Mythos級」という呼称は能力の格付けのつもりでしたが、公開後わずか三日で非公開になり、技術記録も伏せられたことで、語の本来の意味で神話になりました。

触れた人の証言だけが残り、反証は出せません。
あなたが基幹システムの設計者なら、ここから引く実務的な結論は一つです。
米国企業のAIを命や経営の根幹に据えるとき、性能の高さではなく、ある朝それが理由の説明もなく消える確率を、見積もりに入れておくことです¹³。

公開時の社内評価ではOpus 4.8や他社のフロンティアモデルを10〜20ポイント上回り、SWE-bench Proでは80.3%とGPT-5.5の58.6%を引き離していました。Pro以上の契約者に6月22日まで無償提供される予定でしたが、三日で打ち切られました。 – Fable 5 vs GPT 5.5: Anthropic’s model dominated every benchmark, then the government pulled it
最初に報じたAxiosによれば、書簡はラトニック商務長官からアモデイCEO宛てに送られ、商務省産業安全保障局(BIS)の担当者が起草を補助しました。モデルの輸出・再輸出・国内移転には個別ライセンスが必要となり、違反には罰則が科されます。 – Scoop: Trump admin blocks foreign access to Anthropic’s most powerful AI
全ユーザーの国籍を即時に確認する手段がないため、指令を守るには両モデルを完全に止めるしかありませんでした。米国市民も巻き添えで利用できなくなりました。 – Anthropic suspends new AI models after government directive
システムカードは319ページに及びます。TechCrunchは、安全機構を率直に開示したこの文書が、かえって政府に介入の道筋を与えた可能性を指摘しています。 – Anthropic Apologizes for Claude Fable 5 Secret Censorship—But the Fix Has a Catch
Anthropicの声明によれば、政府が示したのは特定のコードベースを読ませて不具合を直させるという狭く非汎用的な手口で、表面化したのは既知の軽微な脆弱性が数件のみでした。汎用的に防御を解除する「ユニバーサルジェイルブレイク」は誰も発見していない、と同社は述べています。 – Statement on the US government directive to suspend access to Fable 5 and Mythos 5
同じ作業はGPT-5.5など他の公開モデルでも脱獄なしに行え、セキュリティ技術者が脆弱性を先回りで塞ぐために日々使う水準だ、というのがAnthropicの反論です。これが事実なら、なぜFableだけが止められGPT-5.5は止まらないのかという問いが残ります。 – The Jailbreak that Got Fable 5 Pulled Exists in Every Model
政府は実演も技術評価も書簡も公開しておらず、突破の主張と否定のどちらが正しいかを外部の専門家が判定できないままです。 – Anthropic Fable 5 Shutdown: US Export Order Forces a Global Customer Cutoff
この隠れた制限はプロンプトの改変やステアリングベクトルで出力を静かに劣化させるもので、Anthropicは影響を全体の0.03%と見積もっていました。 – Anthropic quietly degraded Fable 5 for AI researchers, then apologized
Anthropicはこの判断を誤りと認めて謝罪し、以後は弱体化を隠さずOpus 4.8への降格を明示する方式へ切り替えました。可視化により回避はしやすくなり、誤検知は増えると同社は認めています。 – Anthropic walks back covert capability limits on Claude Fable 5
書面の証拠も、従う前に争う機会も、復旧の道筋も与えられないまま即時撤回が求められた点に、適正手続きの欠如が指摘されています。OpenAIやGoogle DeepMind、Metaもこの前例を注視しています。 – Anthropic AI Model Suspension: What The US Directive Means
トランプ大統領は6月上旬、主要AI企業に最先端モデルを30日間の政府レビューへ自主提出させる大統領令に署名しました。介入色の薄かった政権の方針転換とされます。 – The hands-off era of AI oversight is ending. What comes next?
超党派の法案草案は、Anthropic、OpenAI、xAI、Google DeepMindに、破滅的リスクへの対処計画の公表、安全インシデントの報告、第三者監査の受け入れを義務付ける内容です。 – New federal AI bill would limit state control over AI model development
運用面の制約も実在します。Fableは安全分類器のためプロンプトと出力を最大30日(違反検知時は最大2年)保持し、これを嫌ったMicrosoftは社内のGitHub Copilot用モデル選択にFableを出していない、と報じられています。 – Claude Fable 5: Anthropic admits “wrong tradeoff” after invisibly throttling rival AI researchers