ChatGPTやClaude、Geminiといった大規模言語モデルを使っていると、つい「この人工知能は賢い」と感じてしまいます。
質問に答え、コードを書き、文章を要約する。
まるで知識を持っているかのように振る舞います。
しかし、実際のところLLMは「知っている」わけではありません。
正確に言えば、知識を持つ仕組みで動いていないのです。
この違いは、1980年代に栄えた「エキスパートシステム」と比べるとはっきり見えてきます。
エキスパートシステムとLLM。
どちらもAIと呼ばれますが、中身はまったく別物です。
1. かつて「AI」といえばルールを書くことだった
1970年代から1980年代にかけて、人工知能といえば「ルールを書く」ことでした。
たとえば医療診断のエキスパートシステムなら、こんな具合です。
「もし熱が38度以上で、咳があり、のどが痛いなら、インフルエンザの可能性が高い」
このようなルールは、人間の専門家が経験や医学知識をもとに、条件と結論を明確に定めました。
これが「知識ベースAI」の考え方でした。
知識をルールとして書き、推論エンジンがそれを使って答えを出す。
知識は明示的で、説明可能です。
1.1. ルールベースは行き詰まった
当時、これは「賢い」とされましたが、致命的な問題がありました。
知識を書くのが大変すぎるのです。
たとえば「熱があるならインフルエンザ」というルールを書いても、実際には熱だけでは判断できません。
他の病気の可能性もあります。
では条件を細かくするか。
するとルールは爆発的に増えます。
また、環境が変わったらルールを書き直す必要があります。
しかし、複雑化したルールの束は、どこをどう直せばいいのか、人間にもわかりません。
こうして1980年代後半、エキスパートシステムは「AIの冬」とともに失速しました1。
知識を人間が書く限り、スケールしなかったのです。
1.2. ニューラルネットワークは「書かない」
そこで、発想を変えたのが、「ニューラルネットワーク」です2。
ルールを書きません。
データから学びます。
たとえば画像から数字を見分けるニューラルネットワークを作るとき、「5は、2つの直線と曲線があって……」といったルールは書きません。
代わりに、大量の5の画像と、5でない画像を見せます。
すると、ニューラルネットワークは自分で「5らしさ」を数値的に捉え始めます。
どの部分を見れば5かどうかわかるのか、その傾向を学びます。
ニューラルネットワークの内部には、無数の数値が並んでいます。
この数値の並びが「5らしさ」を表現しています。
しかし、人間がその数値を見ても「なぜ 5 と判定したのか」は説明できません。
これがブラックボックスと呼ばれる理由です。
2. 生成AI(LLM)もルールを書かない
「生成AI(大規模言語モデル:LLM)」も、このニューラルネットワークの仕組みで動いています。
LLMは膨大な文章を読み、次にどんな言葉が来るかを予測する訓練を受けます3。
何兆語もの文章を読むうちに、文章の書き方、言葉の使い方、話題の展開の仕方を統計的に学びます。
2.1. 「有用」は文脈によって決まる
ここで「強化学習」が登場します4。
LLMの訓練は二段階です。
最初に大量のテキストで「言葉の並び方」を学びます。
次に、人間の評価をもとに「有用な応答」を学びます。
この第二段階が「強化学習」です。
人間が「この答えは良い」「この答えは悪い」と評価します。
すると、LLMは良い評価を受けやすい答え方を学びます。
ここで重要なのは、学んだ結果が「ルール」にならない点です。
ここで学んでいるのは「知識」ではありません。
正確には「どう書けばそれらしく見えるか」という傾向です。
多くの評価データから「こういう言い方が好まれる」という方向性を抽出し、その方向に確率を寄せます。
強化学習がしているのは、出力の傾向を調整することです。
たとえば「太陽は」と入力されたとき、次に「東から」が来やすいことを学びます。
これは「太陽は東から昇る」という知識を理解しているわけではありません。
大量の文章で「太陽は東から」という並びが頻繁に現れたから、その確率が高くなっただけです。
だから、LLMはもっともらしい嘘をつくことがあります。
確率的にそれらしい言葉を並べた結果、事実と違う文章ができてしまうのです。
3. コンテキストウィンドウという補完装置
ニューラルネットワークの学習だけでは、個別の細かい情報や最新の事実を扱えません。
圧縮された傾向しか持っていないからです。
そこで登場するのが「コンテキストウィンドウ」です。
「コンテキストウィンドウ」とは、LLMが一度に参照できる範囲のことです5。
ここに最新の資料や具体的な指示を入れると、LLMはそれを優先的に参照します。
つまり、LLMは二層構造で動いています。
- 第一層は学習済みのニューラルネットワークです。
ここには圧縮された言語の傾向が入っています。これがベースです。 - 第二層はコンテキストウィンドウです。
ここには個別の情報、具体的な指示、最新のデータを入れます。
LLMはこちらを優先的に見ます。
この二層構造があるから、LLMは「一見賢く見える」のです。
学習済みの広い知識と、今の文脈に特化した情報を組み合わせて応答します。
しかし、コンテキストウィンドウも万能ではありません。
容量には限界があります。
長すぎる文章は入りきりません。
また、コンテキストに入れた情報も、次の会話では消えます。
3.1. 内容ではなく配置を知っているだけ
LLMを理解するには、専門家ではなく司書を想像するとわかりやすいです。
どんなに優秀な司書でも、すべての本は読んでいません。
しかし、どの本がどこにあるか、どの分野の本を持ってくればよさそうかを素早く判断できます。
LLMも似ています。
ニューラルネットワークの学習は、内容の理解ではなく配置の整理です。
「この話題の近くには、こういう言葉が来やすい」という位置関係を整えています。
そして、Transformerの注意機構が司書の目線にあたります6。
質問を受けたとき、LLMは膨大な学習データの中から「今の文脈に関係がありそうな部分」を重点的に参照します。
関係が薄い部分は軽く扱います。
この取捨選択が、まるで理解しているかのように見せます。
3.2. ルールとは似て非なるもの
ここまで見てきたように、LLMとエキスパートシステムは根本的に違います。
- エキスパートシステムは知識を明示的に持っていました。
ルールは消えず、曖昧にもなりません。 - LLMは知識を持っていません。持っているのは、圧縮された傾向です。
どう書けばそれらしく見えるかという確率の集まりです。
この違いを理解すると、LLMの振る舞いが納得できます。
なぜ同じ質問に違う答えを返すのか。
それは、毎回、確率的に選んでいるからです。
なぜ「覚えた」はずのことを忘れるのか。
最初から覚えていないからです。
4. まとめ
大規模言語モデルは、記号主義AIやエキスパートシステムと異なり、明示的な知識やルールを持たない。
ニューラルネットワークの学習によって獲得されるのは、統計的に圧縮された言語パターンの傾向であり、強化学習はその分布を有用性の方向へ調整する工程に過ぎない。
Transformerの注意機構は文脈に応じた情報選択を行うが、内容の理解や検証は行わない。
さらにLLMは、学習済みパラメータによる汎用的な言語生成能力と、コンテキストウィンドウを通じた個別情報の参照という二層構造で動作している。
この構造が「理解しているように見える」振る舞いを生むが、本質的にはブラックボックスな確率的生成装置である。
- 第二次AIブームは1980年代に起こりましたが、エキスパートシステムの限界から1990年代初頭に再び冬の時代を迎えました。日本の第五世代コンピュータプロジェクトも1992年に当初の目標未達のまま終了し、AI研究全体への資金供給が大幅に減少しました。 – 人工知能の歴史 – Wikipedia
- ニューラルネットワークそのものは1950年代から研究されていましたが、1980年代に逆伝播アルゴリズムが発展したことで実用性が高まりました。しかし当時の計算資源の限界により、本格的な利用は2010年代のディープラーニング革命まで待つことになります。 – 人工知能の歴史 – Wikipedia
- GPT-3は2020年5月に発表され、1750億個のパラメータを持つ当時最大規模の言語モデルでした。これは前世代のGPT-2の15億パラメータから100倍以上の規模拡大となり、人間が書いた文章と見分けがつかないほどの品質を実現しました。 – GPT-3 – Wikipedia
- ChatGPTでは、教師あり学習で基本的な応答能力を獲得した後、人間のフィードバックからの強化学習(RLHF: Reinforcement Learning from Human Feedback)により、人間の価値観に沿った応答を生成するように調整されています。これにより、GPT-3で問題となっていた不適切な発言や誤情報の生成が大幅に抑制されました。 – ChatGPT – Wikipedia
- 初期のGPTモデルでは数千トークン程度だったコンテキストウィンドウは、技術の進化により大幅に拡大しています。2020年のGPT-3では2048トークン、2023年のGPT-4では最大128,000トークン(約10万語)まで拡張され、長文書の処理や複雑な対話が可能になりました。 – GPT-3 – Wikipedia
- Transformerアーキテクチャは2017年にGoogleの研究者らによって発表された論文「Attention Is All You Need」で初めて提案されました。従来の逐次処理が必要だったRNN(リカレントニューラルネットワーク)とは異なり、並列処理が可能な自己注意機構(Self-Attention)を採用することで、学習の高速化と長距離依存関係の学習を実現しました。 – Attention Is All You Need – Wikipedia