Googleの画像生成AI「Nano Banana」について、てっきりGeminiとは別の生成AIで、ChatGPTとDALL-Eみたいに独立したモデルを組み合わせているんだと思っていたんです。でも実際に調べてみると、全然違っていました。
Nano BananaはGeminiそのものだったんです。正確には、Geminiという「脳」に画像生成という「手」をつけたもの。AI開発の転換点が見えてきました。同じトランスフォーマー?
1. Nano BananaはGeminiと同じトランスフォーマーアーキテクチャ?
調べ始めたきっかけは、シンプルな疑問でした。
「GeminiとNano Bananaは、同じトランスフォーマーアーキテクチャなの?」
公式ドキュメントを確認すると、Nano Banana Pro(正式名称:Gemini 3 Pro Image)は「Built on Gemini 3 Pro」と書かれています1。
この「上に構築された」という表現が気になりました。
調べていくと、アーキテクチャの詳細が見えてきました。
Gemini 3 Proは、Decoder-only Transformerという構造を採用しています2。
これは、入力を理解して次の出力を生成する、いわゆる「脳」の部分です。
パラメータ数は推定で100億個規模。
一方、Nano Banana Proも同じくGemini 3 Proのアーキテクチャを使用していて、両者は「Sparse Mixture-of-Experts(MoE)」という、複数の専門家ネットワークを選択的に使う仕組みも共有していることがわかりました3。
両モデルの共通部分は、こう整理できます。
まず、Gemini 3 Pro Transformerという共通の基盤があります。
これには以下が含まれます:
- 入力埋め込み層(テキストや画像を数値に変換)
- Transformer Block(Self-AttentionとFeed-Forwardのセット)が何十層も積み重なったもの
- Mixture-of-Expertsの仕組み
- 位置エンコーディングや正規化層
この部分が、推定で全体の90〜95%を占めています。
学習データも、基盤部分はほぼ同じマルチモーダルデータセットです。
1.1. 違う部分:Output Head
じゃあ何が違うのか。
それは最終的な出力層だけでした。
- Gemini 3 Proは、Transformer本体の出力(4096次元のベクトル)を受け取って、Language Headという出力層に渡します。
この層は、4096次元を語彙サイズ(約25万6000語)に変換して、「次にどの単語が来るか」の確率分布を作ります。 - 一方、Nano Banana Proは同じTransformerの出力を、Image Headという別の出力層に渡します。
この層は、4096次元を潜在空間(1024次元程度)に射影して、そこから拡散モデル(GemPix 2)を使って画像のピクセル配列を生成します4。
つまり、こういうことです。
Gemini 3 Pro Transformer(共通の脳)
├─ Language Head → テキスト出力 = Gemini 3 Pro
└─ Image Head → 画像出力 = Nano Banana Pro
違うのは、最後の5〜10%だけ。
「脳」の部分は完全に同じだったんです。
1.2. 「Decoder-only Transformer」という言葉
Gemini 3 Proは、Decoder-only Transformerという構造です。
これは、最初、「Transformerとデコーダーは別物で、デコーダーを切り替えているのかな?」と思ったんですが、誤解でした。
正確には、Decoder-only Transformerの「Decoder」は、オリジナルのTransformerアーキテクチャ(2017年の”Attention is All You Need”論文)における「Decoder部分だけを使う」という意味でした5。
つまり、Transformer本体そのものがDecoderなんです。
そして、最終的な出力を生成する小さな層を「Output Head」と呼びます。
これが、テキスト用だったり画像用だったりするわけです。
整理するとこうなります:
- Decoder-only Transformer = モデル本体(大規模なニューラルネット)
- Output Head = 最終出力を作る専門層(小規模なニューラルネット)
全部、ニューラルネットワークの連鎖です。
2. Output Headは交換可能なモジュールなの?
次に浮かんだ疑問は、「じゃあ、Output Headって付け替えられるの?」でした。
理論的には、可能です。
でも、条件があります。
同じTransformerの出力(4096次元ベクトル)を受け取るので、テキスト用でも画像用でも音声用でも、接続できます。
でも、ここで重要な問題があります。
ニューラルネットワークを訓練すると、内部に「表現空間」というものができます。
これは、概念を数値ベクトルで表現する空間です。
例えば、訓練後のモデルでは:
- 「猫」→ [0.8, 0.2, 0.1, …]
- 「犬」→ [0.7, 0.3, 0.1, …]
- 「車」→ [0.1, 0.1, 0.9, …]
という具合に、似た概念は近い位置に、関係ない概念は遠い位置のベクトルとして配置されます6。
ここで問題なのは、訓練のたびに異なる表現空間が生成されるという事実です。
もし別々に訓練したら:
- モデルAの「猫」→ [0.8, 0.2, 0.1, …]
- モデルBの「猫」→ [-0.3, 0.9, -0.5, …]
内部表現の座標系が全く違ってしまいます。
つまり、モデルAのOutput HeadをモデルBにつけても動きません。
2.1. Geminiが採用した解決策
Googleはどうしたのか。
答えは、1回の訓練で基盤Transformerを作り、それを共有するという方法でした。
訓練プロセスを大まかに整理すると、
- マルチモーダル事前訓練(数ヶ月かけて1回だけ)
- テキスト、画像、音声、動画データを統合的に学習
- Gemini 3 Pro Transformerが完成
- この時点で表現空間が確定
- 専門化(追加学習)
- 分岐A:Language Headを追加訓練 → Gemini 3 Pro製品
- 分岐B:Image Headを追加訓練 → Nano Banana Pro製品
- ※Transformer本体の重みは固定または微調整のみ
こうすることで、両製品は同じ表現空間を共有します。
だから、Output Headの交換が可能なんです。
3. OpenAI(Copilot/DALL-E)との比較
実は、以前はそうではありませんでした。
たとえば、Copilotではチャット画面から画像生成まで可能になっていましたが、GPT-4とDALL-E 3は完全に別々のモデルでした。
GPT-4はテキスト専用のTransformerで、
DALL-E 3はCLIPエンコーダーと拡散モデルを組み合わせた画像生成専用モデル7。
表現空間も訓練も完全に独立していて、API連携で後から統合していたんです。
「この画像を説明して、次に似た絵を描いて」という指示を出すと:
- 画像をVision APIに送って説明テキストを生成
- テキストをGPT-4に送ってプロンプトを生成
- プロンプトをDALL-Eに送って画像を生成
3つのモデル、3回の変換。複雑で時間もかかります。
つまり、私が最初に想像していた「別物のAIを組み合わせる」方式ですね。
3.1. 新世代への転換(2024年以降)
ところが、2024年5月に登場したGPT-4oでは違っています。
GPT-4oは、テキストと音声を統合したマルチモーダルモデルです8。
1つの統合Transformerで両方を処理して、Output Headを切り替えて出力します。
同じ指示を統合モデルに出すと:
- 画像とテキストを統合モデルに入力
- 内部で理解・推論
- テキストと画像を同時に出力
1つのモデル、1回の処理。シンプルで速い。
つまり、Geminiと同じアプローチです。
OpenAIも、Googleと同じ方向に舵を切っているんです。
ただし、画像生成はまだDALL-E 3として分離されているようで、完全統合はこれからっぽいですね。
4. 専門化から統合の時代に
つまり、大きな流れとして、一つの巨大な「言語モデル」を作るようになってきているのです。
2017〜2023年ごろは、AIは専門分野ごとに独立して発展していました。
- テキスト系統:GPT → GPT-2 → GPT-3 → GPT-4
- 画像系統:GAN → BigGAN → DALL-E → DALL-E 2/3
それぞれが別々の研究分野で、別々のアーキテクチャと訓練方法を使っていました。
統合するには、API連携で後から繋げるしかなかったんです。
ただし、この方法には情報のロスがあります。
GPTの「猫」とDALL-Eの「猫」は、異なる概念空間にいるからです。
これが、2024年ごろから変わって来ました。
最初から、すべてのモダリティ(テキスト、画像、音声、動画)を統合的に学習します。
こうして作られた「基盤モデル」は、あらゆる入力を理解して、適切な形式で出力できます。
専門性から汎用性へ。
これは、AI開発の設計思想における根本的な転換です。
4.1. なぜ統合が可能になったのか
技術的なブレークスルーがいくつかありました。
2017年の論文で提案されたTransformerは、テキストだけでなく画像や音声にも適用できる汎用性を持っていました9。
さらに、2021年OpenAIが発表したモデルCLIPでは、テキストと画像を同じ空間に埋め込めることを示しました10。
つまり、異なるモダリティを統一的に扱えるようになりました。
マルチモーダル学習は重い処理ですが、十分な計算資源があれば実現できるようになりました(スケーリング則)11。
4.2. 「言語モデル」という言葉は実態から離れている
これは、「Large Language Model(LLM)」という名称は、もう実態に合わなくなったことを意味しています。
以前のLLMは、確かに「大規模な言語モデル」でした。
テキストだけを処理するものでしたから。
でも今は違います。
Gemini 3 Proは、テキストだけでなく画像も音声も動画も理解します。
出力も、テキストだけじゃなく画像も生成できます(Nano Banana Proとして)。
これを「言語モデル」と呼ぶのは、ちょっと狭すぎる気がします。
だから最近は、「Foundation Model(基盤モデル)」とか
「Multimodal Model(マルチモーダルモデル)」という呼び方が増えているんですね。
これは、「言語」の意味が拡張されたとも言えます。
自然言語だけでなく、画像言語、音声言語、動画言語…
あらゆる情報の表現形式を包含する概念として。
4.3. 実装の現実:完全には統合されていない
ただ、現時点では現実はもう少し複雑です。
GoogleのNano Banana Proは、確かにGemini 3 Proと同じTransformerを使っていますが、製品としては別々に提供されています12。
APIも別で、ユーザーは用途に応じて使い分ける必要があります。
なぜ1つの製品にしないのか。
おそらく、リソースの問題です。
すべてのOutput Headを同時に搭載すると、メモリ使用量が膨大になります。
Transformer本体で100GB、各Output Headで数十GB…合計200GB近くになってしまうかもしれません。
だから、実用的には「共通の基盤を持つ別製品」という形にしているんでしょう。
もちろん、将来的には、GPT-4oのように、1つのAPIで全モダリティを切り替えられる統合版が出てくるかもしれません。
5. 認識のアップデート
Nano BananaをGeminiとは別物の生成AIだと思っていましたが実際は、同じ「脳」から派生した、いわば兄弟のような関係でした。
そして、これは、AI開発の大きな転換点を反映したものです。
以前は、専門AIを個別に開発して、後から組み合わせていましたが、今は統一的な基盤を構築して、専門化は後付けになっているのです。
専門性から汎用性へ。
設計思想の根本的な変化です。
技術は、思っていた以上に速く進化しているんですね。
- GoogleのDeepMind公式ページでは「Built on Gemini 3. Create and edit images with studio-quality levels of precision and control」と明記されています – Gemini 3 Pro Image (Nano Banana Pro) – Google DeepMind
- Gemini/Gemmaモデルファミリーは「decoder-only transformers, with modifications to allow efficient training and inference on TPUs」として設計されています – Gemini (language model) – Wikipedia
- Nano Banana Proは「sparse mixture-of-experts (MoE) transformer-based model」として構築されており、各入力トークンに対してモデルパラメータのサブセットを選択的に活性化します – Google’s Nano Banana Pro might be the ‘ChatGPT moment’ for AI image generation – TechTalks
- Nano Banana ProはGemPix 2という独自のレンダリングエンジンを使用し、Gemini 3.0 Proの認知バックボーンと融合しています。ピクセルをキーワードに単純にマッチングする従来モデルとは異なり、GemPix 2アーキテクチャはデジタルアートディレクターのように機能します – Nano Banana Pro (Gemini 3 Pro image): 4K AI Image Generator
- オリジナルのTransformerアーキテクチャはEncoderとDecoderで構成されていましたが、Geminiを含む多くの現代LLMは「decoder-only」設計を採用しています – Gemma explained: An overview of Gemma model family architectures – Google Developers Blog
- Transformerモデルにおける表現空間では、意味的に類似した概念が近い位置に配置される自己組織化が行われます。これにより、モデルは概念間の関係性を学習します – Unveiling the Magic Behind Google Gemini: A Glimpse into Transformer Architecture
- 従来のOpenAIアプローチでは、GPT-4はdense transformerバックボーンをテキスト処理に使用し、DALL-E 3はCLIP encoderと拡散モデルを組み合わせた独立したアーキテクチャでした – Transformer-based architectures in ChatGPT, Claude, and Gemini
- GPT-4oは統合Transformerを使用し、テキスト、ビジョン、オーディオのマルチモーダル入力を処理できる低レイテンシ用に最適化されたdense transformerバックボーンを特徴としています – Transformer-based architectures in ChatGPT, Claude, and Gemini
- Transformerアーキテクチャは、RNNやLSTMと異なり並列化が可能で、GPT-4、Gemini、Claudeなどの現代LLMの基盤となっています。また、Vision Transformersとしてビジョン、スピーチ、テキストにも適用されています – Transformers: The Architecture Behind GPT-4, Gemini, and the AI Renaissance
- CLIPは対照学習を使用してテキストと画像を同じ埋め込み空間に射影し、異なるモダリティ間での統一的な表現を可能にしました。Nano Banana Proを含む多くのマルチモーダルモデルがこの原理を活用しています – Nano Banana takes a different approach – it’s built on Google’s Gemini multimodal foundation
- Gemini 3 Proのようなモデルは、1 millionトークンのコンテキストウィンドウを持ち、膨大なマルチモーダル・多言語データセットで訓練されています。スケーリング則により、モデルサイズとデータ量の増加が性能向上に直結することが実証されています – Gemini Nano Banana Pro: A Technical Review for Life Sciences
- Nano Banana(Gemini 2.5 Flash Image)とNano Banana Pro(Gemini 3 Pro Image)は別々の製品として提供されており、Nano Bananaは高速で楽しい編集向け、Nano Banana Proは最高品質と視覚的に洗練された結果を必要とする複雑な構成向けです – Nano Banana Pro: Gemini 3 Pro Image model from Google DeepMind