生成AIについて、「ChatGPTはインターネット上の文章で次に来る確率が大きい語を出力するだけだ」という説明をよく耳にします。この説明は一見シンプルで分かりやすいのですが、実は生成AIの仕組みを大きく単純化しすぎています。
この広く見られる誤解は、AIの動作原理について考えるきっかけを与えてくれます。ChatGPTなどの生成AIは本当に「単に次に来る確率が高い単語を出力しているだけ」なのでしょうか?そこには「出現確率」と「予測確率」という重要な違いがあるのです。
出現確率と予測確率の基本的な違い
出現確率とは何か
出現確率とは、単純にインターネットや学習データ上であるパターンがどれくらい出てくるかという頻度です。例えば「りんご」という言葉がどれくらいの頻度で文章に現れるかという統計データのようなものです。
料理のレシピサイトでは「りんご」という言葉がよく出てきますが、スポーツのニュースではあまり出てこないでしょう。このような単純な頻度の違いが出現確率の基本的な考え方です。
予測確率とは何か
一方、予測確率は「これまでの文脈を考慮して、次にどの言葉が来るのが自然か」をAIが計算した確率です。これはただの出現頻度ではなく、文脈に応じた予測になります。
例えば「昨日買った赤い」の後に続く言葉を予測するとき、「りんご」「車」「服」など様々な可能性があります。AIは単に「赤い」の後によく来る言葉を選ぶのではなく、文脈や言語の規則性を学習して、最も自然な続きを予測します。
具体的な例で理解する
例1:多義語の解決
「彼は口座に__を入れた」という文を考えてみましょう。
もし出現確率だけに基づくなら、日本語で最も頻出する言葉「こと」「もの」「人」などが選ばれるかもしれません。しかし予測確率に基づくと、「お金」「資金」「給料」など、文脈に合った言葉が選ばれます。
AIモデルは「口座」という文脈から、金融関連の単語が続く可能性が高いと予測できるのです。
例2:長期依存関係の理解
「田中さんは優秀なエンジニアです。山田さんは有名な医師です。__は先日、新しいソフトウェアを開発しました。」
出現確率だけなら「彼」「私」「人」など単独で頻度の高い言葉が選ばれるでしょう。しかし予測確率では「田中さん」または「彼」(田中さんを指す)が選ばれます。
モデルは文章全体の文脈から、「ソフトウェアを開発した」のは「エンジニア」である「田中さん」だと推論できるのです。これは単純な出現頻度だけでは不可能な能力です。
例3:言語スタイルの一貫性
「これは非常に優れた研究成果であり、学術的貢献度は__」
出現確率だけなら「ある」「です」など一般的な終助詞が選ばれるでしょう。しかし予測確率では「高いと言えるでしょう」「顕著です」など学術的な文体に一致する表現が選ばれます。
モデルは文章の形式的・学術的なスタイルを検出し、それに合った表現を選ぶのです。
技術的な仕組み:注意機構の役割
この違いを生み出す重要な技術が「注意機構(Attention Mechanism)」です。注意機構は、モデルが「どの部分に注目すべきか」を学習する仕組みです。
注意機構の基本的な働き
注意機構は、簡単に言うと「関連性スコア」を計算するシステムです。文章の中の単語どうしの関連性(類似性)を数値化し、関連性が高い単語ほど予測に大きな影響を与えます。これにより、文脈全体の中から今の予測に関係する部分を「選択的に」利用できるようになります。
例えば「彼女は医者です。彼は教師です。__は病院で働いています。」という文で空欄を予測するとき:
- 注意機構がない場合:単に前の単語「です。」から次を予測
- 注意機構がある場合:「医者」と「病院」の関連性を捉え、「彼女」に注目
技術的な動作の詳細
注意機構は、各単語について「クエリ(Q)」「キー(K)」「バリュー(V)」という3つのベクトルを計算します。クエリとキーの内積で各単語ペア間の関連性を数値化し、その重みづけに基づいて予測を行います。
さらに「マルチヘッド注意」という技術により、複数の「注意の視点」を同時に持つことで、様々な種類の関連性を捉えられるようになりました。これは人間が文章を読むときに、意味・文法・論理など複数の視点から同時に理解するのに似ています。
注意機構がもたらす高度な能力
注意機構によって生成AIは以下のような能力を獲得しました:
長文脈理解
何ページにもわたる長い文脈でも一貫性を保てるようになりました。文章の最初の部分と最後の部分を関連づけて理解できます。
参照解決
「太郎は次郎に本を渡した。彼はお礼を言った。」という文では、「彼」が「次郎」を指すことを理解できます。これは文法的な規則だけでなく、常識的な知識(本を受け取った人がお礼を言う)も利用した推論です。
文法的一致
「彼らは大きな家を__」という文では「買いました」など、主語の複数形に一致した述語を予測できます。日本語では英語ほど明確ではありませんが、適切な敬語レベルの選択なども同様の能力によるものです。
知識の統合
「水は100度で__」という文では「沸騰します」と予測できます。これは言語パターンだけでなく、物理法則についての知識も統合していることを示しています。
言語モデルの数学的理解
言語モデルは確率分布 P(w₁, w₂, …, wₙ) を学習します。これは単語列 w₁, w₂, …, wₙ が生成される確率を表します。この同時確率分布は条件付き確率の積に分解できます:
P(w₁, w₂, …, wₙ) = P(w₁) × P(w₂|w₁) × P(w₃|w₁, w₂) × … × P(wₙ|w₁, w₂, …, wₙ₋₁)
この式は「各単語の出現確率は、それより前のすべての単語の影響を受ける」ことを数学的に表現しています。出現確率が単純な P(w) であるのに対し、予測確率は条件付き確率 P(wₙ|w₁, w₂, …, wₙ₋₁) なのです。
生成AIの仕組みに対する誤解
「ChatGPTはインターネット上の文章で次に来る確率が大きい語を出力する」という説明が広まった背景には、softmaxという技術的な概念の説明が不十分だったことも関係しているかもしれません。softmaxは、AIが複数の選択肢から一つを選ぶときに使う計算方法です。
しかし実際のAIは単に「最も頻繁に出てくる言葉」を選ぶのではなく、これまでの文脈から「最も適切な言葉」を予測しています。これには文法や意味の理解、さらには話の流れなど複雑な要素が関わっているのです。
まとめ
現代の生成AI(ChatGPTなど)は単に「インターネット上の文章で次に来る確率が大きい語を出力する」仕組みではありません。文脈を深く理解し、単語間の複雑な関係性を学習した上で、最も適切な続きを予測する高度なシステムです。この違いを生み出す核心技術が注意機構であり、これによって生成AIは人間のような自然な文章を生成できるようになりました。
単純な「出現確率」と文脈に基づく「予測確率」の違いを理解することで、私たちはAIの能力と限界をより適切に把握できるでしょう。