AIブームの翳りと「知のモノカルチャー」
(言語モデルと世界モデル)

ここ1〜2年、生成AIは一気に身近な存在になりました。仕事でも趣味でも、LLM(大規模言語モデル)を使わない日はない、という人も多いと思います。

一方で、便利さに慣れるにつれて、少しずつ違和感も覚えるようになりました。
「できることは増えているが、質は本当に変わっているのか」
「人間がいないと成立しない前提は変わっていないのではないか」。そんな疑問です。

関連記事

1. SNSで見かけた「LLM漬け」と「知のモノカルチャー」

違和感の正体を探そうとしていたとき、SNSで目に入ったのが、ヤン・ルカン(Yann LeCun)の発言でした1
「LLM漬け」「知のモノカルチャー」という言葉です2

ヤン・ルカンの警告 LLM漬け LLM一色になり 他の方法を考えなくなる 知のモノカルチャー 成功した一つの考えが 他の選択肢を押しのける ⚠️ 限界にぶつかったときの逃げ道がない すべて同じ手法に依存

「LLM漬け(LLM-pilled)」とは、AIの研究や開発がLLM一色になり、それ以外の方法を考えなくなる状態を指します。
「知のモノカルチャー(monoculture of thought)」は、農業の単一栽培になぞらえ、成功した一つの考え方が、他の選択肢を押しのけてしまう状況を表す言葉です。

1.1. LLMは何が得意で、何が苦手か

まず、LLMが何をしているのかを改めて整理しました。
LLMは、大量の文章から「次に来そうな言葉」を予測する仕組みです3
文章を作る、要約する、質問に答える。
これらは非常に得意です。

しかし、少し複雑な作業を任せると、途中で筋が崩れたり、前提を忘れたりします。
長い手順を最後まで自分で管理するのは、あまり得意ではありません。

1.2. すべてをLLMで解決しようとする危うさ

調べるほどに、LLMだけに期待しすぎている状況が見えてきました。
うまくいった成功体験が強すぎて、「これが正解だ」と思い込んでしまう。

これが知のモノカルチャーです。
短期的には効率が良いですが、限界にぶつかったときの逃げ道がなくなります4

業務の自動化を試す中で、複数の判断を伴う作業をAIに任せてみました。
最初の数ステップはうまく進みます。
しかし、途中で例外が出ると、話が噛み合わなくなります。

結局、人間が横で監視し、修正する必要がありました。
「補助ツールとしては優秀だが、代理人にはなりきれない」。
これが正直な感想でした。

2. 「反応するAI」と「予測するAI」の違い

ここで、ルカンの指摘が思い出されました。
「今のLLMは、入力に対して反応しているだけだ」という考えです5

反応 vs 予測 現在のLLM 反応するだけ 入力 応答 理想のAI 予測・計画 状況 予測 行動 その場の入力に答えるだけ 内部で未来をシミュレーション

人間は、行動する前に「こうしたら、どうなるか」を頭の中で想像します。
これは予測です。
一方、LLMは基本的に、その場の入力に答えているだけです。
未来を内側でシミュレーションしているわけではありません。

2.1. 「世界モデル」とは何か

世界モデルとは、「世界がどう動くか」を内部に持つ仕組みです6
物が落ちる、ぶつかる、順番を変えると結果が変わる。
こうした因果関係を理解することを指します。

世界モデルとは 世界がどう動くかを内部に持つ仕組み 因果関係を理解する 物が落ちる 物がぶつかる 順番で変わる A→B B→A 💡 動画や空間データから学ぶ研究 言葉よりも現実に近い情報

テキストではなく、動画や空間データから学ぶ研究もあります7
言葉よりも、現実に近い情報を使う発想です8

2.2. 世界モデルへの技術的アプローチ

実際に、言語モデルから世界モデルへと進化させるための技術開発は既に始まっています。

世界モデルへの技術 V-JEPA Meta 動画マスク予測 100万時間学習 Genie 3 Google DeepMind 3D世界生成 24fps 720p Sora OpenAI 拡散変換器 時空間パッチ 共通アプローチ 動画から学習 自己教師あり 時空間統合
  • OpenAIのSoraは、動画生成に特化した拡散トランスフォーマー(DiT)を採用し、時空間パッチ表現により物理的に妥当な動画を生成します。
    ただし、複雑な物理シミュレーションや因果関係の理解には限界があり、「統計的に妥当な予測」の段階にあります。
  • Google DeepMindのGenie 3は、テキストプロンプトから操作可能な3D世界を生成する世界モデルです。
    ハードコーディングされた物理エンジンを使わず、自己教師あり学習により物理法則を学習し、24fpsでリアルタイムに720p解像度の世界を数分間一貫して生成できます。
  • MetaのV-JEPA 2は、100万時間以上の動画データから自己教師あり学習を行い、物理世界の理解・予測・計画を可能にしています。
    動画の一部をマスクし、抽象的な表現空間で欠損部分を予測することで、因果関係を学習します。ロボット制御にも応用され、わずか62時間分のロボット動画から学習し、未知の環境でゼロショットで物体操作を実行できます。

これらの技術は、テキストパターンマッチングから、動画を通じた物理世界の因果関係理解へのシフトを示しています。階層的な時空間スケールでの学習や、視覚・音声・触覚などのマルチモーダル統合が、次の課題です。

3. まとめ

「AIブームが終わった」のではなくとも、次の段階に入ろうとしていると感じています。

次の段階へ LLMは主役ではなく、部品の一つ 計画・記憶・予測を組み合わせる LLM + 世界モデル + 予測機構 自律的なAIへ

LLMは重要な技術です。
ただし、すべてを任せる主役ではなく、部品の一つとして扱う視点が必要です。
計画、記憶、予測。
こうした要素を組み合わせて、初めて「自律的なAI」に近づくのだと思います。

  1. Kosuke / X
  2. ヤン・ルカンは実際には「LLM-pilled」「monoculture of thought」という英語表現を使用している。2025年1月のダボス会議でも「AI業界は完全にLLM-pilledだ」と発言している。 – AI luminaries at Davos clash over how close human-level intelligence really is
  3. より正確には、LLMはトークン(単語や文字の断片)の統計的パターンを学習し、文脈に基づいて次のトークンの確率分布を予測する。この仕組みにより流暢な文章生成が可能になるが、真の因果理解や推論能力には限界がある。 – Yann LeCun, one of the ‘Godfathers of AI,’ says LLMs are on their way out
  4. ルカンは「競争が激しい環境では、特定のアプローチが機能しているように見えると、経済的・制度的圧力によってほとんどのアクターが同じ道を辿る」と警告している。シリコンバレーでの数百億ドル規模のLLM投資集中がこの現象の典型例。 – Is the AI Industry LLM-Pilled? Yann LeCun’s Case for a Different Path
  5. ルカンは「現在のAIシステムはすべてSystem 1(直感的・自動的処理)の形態であり、System 2(熟考的・分析的処理)の能力を持たない」と指摘している。 – Yann LeCun, one of the ‘Godfathers of AI,’ says LLMs are on their way out
  6. ルカンの論文「A Path Towards Autonomous Machine Intelligence」(2022)では、世界モデルを「観察によって世界を表現し、予測し、行動することを学習できる、設定可能な予測的世界モデル」と定義している。 – A Path Towards Autonomous Machine Intelligence
  7. Metaは既にI-JEPA(画像タスク用)とV-JEPA(動画タスク用)を発表している。JEPAは「Joint Embedding Predictive Architecture」の略で、生成的ではなく表現空間での予測を行う新しいアーキテクチャ。 – Critical review of LeCun’s Introductory JEPA paper
  8. なお、ヤン・ルカンは2024年11月にMetaを離れ、Advanced Machine Intelligence (AMI) Labsという新会社を設立。世界モデルとビデオデータを活用した次世代AI開発に注力している。 – AI luminaries at Davos clash over how close human-level intelligence really is