生成AIの「次単語予測」限界論と、AIが「思考」を獲得するための4つのパラダイム

1. はじめに：トランスフォーマーの栄光と「確率の罠」

現在、世界を席巻しているChatGPTやGeminiなどの生成AIは、例外なく「トランスフォーマー（Transformer）」というアーキテクチャを採用しています[1]。その能力は驚異的ですが、根本的な原理は非常にシンプルです。それは、過去の文脈から「確率的に最もありそうな次の単語（トークン）」を予測して出力しているだけに過ぎません。

極端な言い方をすれば、現在のAIは「意味を理解して考えている」のではなく、「膨大なデータから学習したパターンマッチングで、それっぽい言葉を並べている」状態です。

これは研究者の間では「確率的なオウム（Stochastic Parrots）」とも呼ばれる性質であり[2]、そのため、もっともらしい顔をして平気で嘘をつく（ハルシネーション）という弱点を抱えています[3]。

では、AIが単なる「確率予測マシン」を脱し、人間のような「思考」を手に入れるためには、何が必要なのでしょうか。

現在、世界中の研究機関がその実現に向けてしのぎを削っています。

本記事では、その最前線の取り組みを以下の流れで解説します。

「思考」の定義: そもそもAIが目指すべき「思考」とは何か？

2つのアプローチ:

既存パラダイムの進化: 現在のTransformerモデルを改良し、段階的に思考力を獲得させる試み。

新パラダイムへの転換: 「次単語予測」に見切りをつけ、全く新しい仕組みで世界を理解させようとする野心的な試み。

未来の展望: 最終的に、どのパラダイムが「真の思考」を実現するのに最も有望なのか？

まずは、AIが目指すべきゴールである「思考」の正体について、認知科学の視点から紐解いていきましょう。

2. 「思考」の正体：AIにおける「直感」の誤解と本質

そもそも「思考」とは何でしょうか。認知科学やAIの歴史において、知能をどう捉えるかには大きく4つの主要なパラダイムが存在します。

記号主義（Symbolism）: 思考を「論理的な記号操作」と捉える（昔ながらのAI）。

コネクショニズム（Connectionism）: 思考を「ニューロンの発火パターン」と捉える（今のディープラーニング）。

確率的ベイズ推論: 思考を「不確実性の中での確率更新」と捉える。

身体性認知: 思考を「身体と環境との相互作用」と捉える。

これらの技術的なアプローチを人間の思考プロセスと照らし合わせ、現在のAIに何が足りないのかを整理するための「羅針盤」として、現在広く参照されているのが、ノーベル経済学賞受賞者ダニエル・カーネマンが提唱した「二重過程理論（System 1 & 2）」です[4]。

カーネマンが解き明かした「人間のバグ」とSystem 1/2

なぜ、この理論が選ばれているのでしょうか？それを理解するために、まずはカーネマンが定義した「思考の正体」を見てみましょう。

この理論が生まれた背景には、「人間は本当に合理的なのか？」という根源的な問いがありました。かつての経済学は「人間は常に自分の利益を最大化するように論理的に行動する」と仮定していましたが、現実はそうではありません。私たちは衝動買いをし、確率計算を間違え、偏見で判断を歪めます。

カーネマンは、こうした「人間の判断のバグ（非合理性）」を心理学的な実験で次々と暴き出しました。そして、人間が常に論理的（System 2）に考えているわけではなく、日常の多くの判断を「省エネで簡便な直感（ヒューリスティクス）」に委ねていることを突き止めました。

彼は人間の思考モードを、以下の2つに分類しました。

System 1（速い思考）: 自動的で、努力を要さない直感的な処理（例：表情から感情を読む、自転車に乗る）。

System 2（遅い思考）: 意識的で、集中力を要する論理的な処理（例：複雑な計算、税金の申告書類作成）。

AIの歴史は「System 2」から「System 1」へ

ここでAIの歴史を振り返ると、非常に興味深い事実が見えてきます。実は、AIの進化の歴史は、このSystem 2からSystem 1への移行そのものだったのです。

昔のAI（GOFAI: Good Old-Fashioned AI）:

1950〜80年代の主流。人間が手作業で「AならばB」という論理ルールをプログラムしていました。

これはまさに記号主義的な「System 2（論理）」のアプローチであり、チェスや数学の証明は得意でしたが、画像認識のような「直感」は苦手でした。

今のAI（ディープラーニング）:

2010年代以降の主流。大量のデータからニューロンの結合パターンを自動学習します。

これはコネクショニズム的な「System 1（直感）」のアプローチであり、画像認識や自然な会話は得意ですが、厳密な論理推論を間違えることがあります。

つまり、世界中の研究者が今目指しているのは、「System 1（今のAI）に、かつて捨てたSystem 2（論理）の力を再統合する」ことなのです。

System 1には「2つの顔」がある

しかし、ここで多くの人が陥る誤解があります。「System 1＝直感（AIはこれが得意）」と単純に片付けてしまうと、AIが抱える本質的な欠陥を見落としてしまうのです。

カーネマンは、System 1（速い思考）には本来2つの種類が含まれるとしています。

生物的な反応: 大きな音に驚く、表情から怒りを察知するなど、生まれつき備わった反射。

熟達したプロの直感（暗黙知）: ここが最も重要です。医師が患者を一目見て「何かおかしい」と感じたり、経営者が数多の修羅場を経て瞬時に最適解を選んだりするような、膨大な経験と身体感覚に裏打ちされた高度な判断です。

今のAIが持つ「直感」は本物か？

現在の生成AI（LLM）は、System 1的な振る舞いが非常に得意です。質問されれば、人間よりも早く、それらしい答えを返します。しかし、それは医師や経営者が持つ「プロの直感」と同じものなのでしょうか？

答えは「No」です。

AIの「直感」は、Web上のテキストデータ（形式知）を統計的に繋ぎ合わせた「確率のパッチワーク」に過ぎません。そこには、現場の空気感、失敗の痛み、言葉にならない暗黙知といった、本来の直感を支える「身体的な経験」が完全に欠落しています。

つまり、今のAIは「教科書を丸暗記しただけの医学生」のような状態です。知識量は凄まじいですが、未知の現場や複雑な文脈に直面したとき、本物のプロが発揮するような「暗黙知ベースの直感」は機能しません。

暗黙知の壁を超えるための挑戦

もちろん、研究者たちもこの「暗黙知の欠如」に手をこまねいているわけではありません。現在、この壁を乗り越えるために、大きく2つのアプローチで「暗黙知の形式知化」が進められています。

思考プロセスの言語化（Chain of Thought 学習）

専門家が結論に至るまでの「思考の過程（推論ステップ）」をあえて言語化し、データセットとしてAIに学習させる手法です。

これまで熟練者の頭の中に隠れていた「なぜそう考えたか（暗黙の推論）」を、大量のテキストデータ（形式知）に変換して取り込もうとする試みです。

マルチモーダル学習による「非言語情報」の取り込み

テキスト（言葉）だけでなく、画像、音声、動画、ロボットのセンサーデータなど、言語化されていないデータを丸ごと学習させる手法です。

例えば、熟練工の作業映像から「道具の微妙な角度」を学んだり、ロボットの試行錯誤データから「物理的な力加減」を学んだりすることで、「言葉にできない現場の勘所」をデータとして取り込もうとしています。

しかし、これらのアプローチをもってしても、まだ「人間レベルの思考（AGI）」には到達していません。そこで必要になるのが、次の章で解説する「System 2」の本格的な実装です。

なぜ「System 2」が必要なのか

だからこそ、AIがAGI（汎用人工知能）へと進化するためには、この「統計的な似非直感（System 1）」だけでは限界があります。

Webデータにない未知の問題に直面したとき、立ち止まり、論理を組み立て、仮説検証を繰り返す「System 2（遅い思考・熟考）」の能力。そして、言葉にならない現実世界を理解するための「世界モデル」。

これらを獲得して初めて、AIは「確率予測マシン」を卒業し、医師や経営者のような「深い洞察」に近づくことができるのです。次章からは、その実現に向けた具体的なアプローチを見ていきましょう。

現状のAI（トランスフォーマー）は、まさに「System 1の塊」です。直感的に答えを出すのは得意ですが、立ち止まって考えるSystem 2の機能が欠けています。これからのAI開発の焦点は、「いかにしてAIにSystem 2（熟慮・論理）を実装するか」にあります[5]。

3. 次世代AIへのアプローチ：改良か、刷新か

AIに「System 2」を実装し、現在の限界を突破するために、世界では大きく分けて「既存技術の改良（運用面の進化）」と「構造の刷新（パラダイムの進化）」という2つの方向で、計4つのアプローチが進行しています。

A. 現状技術の「運用」を進化させる（Processの進化）

トランスフォーマー自体は使い続け、「考えさせ方」を工夫することで限界を超えるアプローチです。

① 推論時計算（Inference-Time Compute）

～「すぐに答えるな、考えろ」の実装～

OpenAIの「o1」モデルなどが採用している、今最も実用化が進んでいる手法です。

概要: ユーザーの質問に対してすぐに回答を出力せず、第2章で述べたような「形式化された思考プロセス」をなぞることで、内部で「思考の連鎖（Chain of Thought）」を生成します[6]。AI自身に複数のアプローチを試させ、間違いを自己修正させてから最終回答を出します[7]。

成果: 数学やプログラミングの難問において、劇的な正答率の向上を実現しています[7]。

B. AIの「構造」自体を刷新する（Paradigmの進化）

「トランスフォーマー（確率予測）」の構造的欠陥を指摘し、全く新しい仕組みを取り入れる3つのアプローチです。

② 世界モデル（World Models / JEPA: Joint Embedding Predictive Architecture）

～「言葉」から「意味・世界」の理解へ～

Meta社のヤン・ルカン（Yann LeCun）氏らが提唱。「次単語予測は行き止まりである」とする急進的なアプローチです[8]。

概要: テキストの並び順ではなく、「動画」や「現実世界」の物理法則・因果関係を学習します。具体的には、大量の動画を見せ、その「続き」や「隠された部分」を予測させることで学習します。

LLMが「次の単語」という記号を予測するのに対し、世界モデルは「次の瞬間の物体の位置や状態」を予測します。

これにより、言葉を介さずに、まるで人間の赤ちゃんが目で見て物理法則を学ぶように、脳内で世界のシミュレーションを行えるようにします[8]。

狙い: 確率的な言葉遊びではなく、人間のような「常識」や「物理的直感」を持つAIを目指しています。

③ ニューロシンボリックAI

～「直感」×「論理」の完全融合～

Google DeepMindなどが進める、「絶対に間違えてはいけない領域」のための技術です。

概要: 現在のニューラルネットワーク（直感・言語）に、古き良き記号主義AI（数式・ルールベースのプログラム）を融合させます。

Chain of Thoughtが「言葉の確率で論理を模倣する（間違える可能性がある）」のに対し、こちらは「計算や論理証明を、プログラムとして厳密に実行する」点が決定的に異なります。

言語モデルは問題を数式やコードに翻訳する役割に徹し、解くのは「計算機（ソルバー）」が行うため、計算ミスが起きません。

もちろん「正しく翻訳できるか」という課題は残りますが、生成したコードを実行してエラーが出れば自己修正できるため、言葉だけで考えるより遥かに堅牢です。

成果: 「AlphaGeometry」などのシステムが、国際数学オリンピックレベルの幾何学問題を解くことに成功しています[9]。

狙い: 生成AIの弱点である「計算ミス」や「論理矛盾」を、数学的に100%正しい論理で補完します。

④ 状態空間モデル（SSM: State Space Models / Mamba）

～「記憶」の構造改革～

トランスフォーマーの最大の弱点である「計算コスト（二乗計算量）」の壁を壊すアプローチです[10]。

概要: 情報を全て再計算するのではなく、圧縮して「状態」として保持することで、メモリ効率を劇的に高めます（線形計算量）[10]。

狙い: 書籍一冊分どころか、ユーザーの全人生や全業務履歴といった「長期記憶」を持った上での思考を可能にします。

- 今のAI（Transformer / Claude Code等毎回、過去の会話履歴を最初から全部読み直して計算し、回答が終わるとその計算結果は捨てられます。次の発言時もまた最初から読み直すため、会話が長くなると動作が重くなります。（比喩：発言するたびに、会議の録音テープを最初から最後まで全部聞き直して、「えーと、あの時こう言ったから…」と考えます。会議が長引くと、聞き直す時間がどんどん長くなります。）

- SSM（State Space Models）読んだ内容を、生のテキストのままではなく、「圧縮された要約データ（＝状態）」に変換して取り込みます。新しい情報が来るたびに、この要約データを上書き更新します。過去のテキスト自体は読み直さず、「最新の要約データ」だけを持っていればよいため、どれだけ記憶が増えても動作が重くなりません。（比喩：会議の録音を聞き直すのではなく、手元の「メモ」だけを見て即答する人）

- なぜまだ主流ではないのか？「メモ（要約）」を作る際、重要でないと判断して捨てた情報は二度と思い出せないためです。「3時間前の会話の、あの些細な一言」を正確に思い出すようなタスク（コピー能力）では、全部録音しているTransformerにまだ劣る部分があります。

4. 結論：AGI（汎用人工知能）への最短ルートは？

これら4つのアプローチの中で、どれが最もAGIに近いのでしょうか。

【短期的展望：o1の独走】現状、AGIへの最短距離を走っているのは、既存の技術を極限まで使い倒す「① 推論時計算（o1）」です[7]。「中身がどうあれ、結果として人間より仕事ができれば良い」という実利的なアプローチにより、今後数年は産業界での覇権を握るでしょう。

【長期的展望：世界モデルへの統合】しかし、o1のアプローチが単なる「超高性能な模倣」で終わるのか、真の「理解」に到達するかは議論が分かれています。真の意味で人間のように世界を感じ、未知の状況に対応できる知能を作るには、「② 世界モデル」への構造転換が不可欠です[8]。

最終的なAGIの完成形は、これら全てのパラダイム（推論能力、世界理解、論理的厳密さ）が一つに統合された姿になると予測されます。

5. 実践編：私たちが今すべき「プロンプト戦略」

未来の技術を待つ間、私たちはどうすればいいのでしょうか。重要なのは、私たち人間がプロンプトで、今のAIに「System 2」の役割を強制することです。

「ステップ・バイ・ステップで考えてください（Let's think step by step）」という指示だけでAIの推論能力が向上することは、論文『Large Language Models are Zero-Shot Reasoners』でも実証されています[11]。また、問題を分解して計画を立てさせる「Plan-and-Solve」アプローチも有効です[12]。

ChatGPTの「GPTs」やGeminiの「Gems」でカスタム指示（Instructions）を設定する際、以下の内容を含めることで、AIの「直感的な浅い回答」を防ぎ、論理的な思考を引き出すことができます。

【System 2 強制プロンプト（コピペ推奨）】

AIへの指示欄（System Instructions）に以下を入力してください。

あなたは単なるチャットボットではなく、論理的な思考パートナーです。ユーザーからの問いに対して、System 1（直感）で即答することを禁止します。回答を出力する前に、必ず以下の「System 2（熟考）プロセス」を内部的に実行してください。

【定義】ユーザーの質問の意図、背景、制約条件を定義する。

【分解】複雑な課題を、解決可能な小さなサブタスクに分解する。

【批判】自身が導き出した仮説に対し、「反証はないか？」「論理の飛躍はないか？」と批判的検証を行う。

【統合】検証済みの情報のみを統合し、回答を作成する。

あなたの役割は、確率的に高い言葉を並べることではなく、論理的整合性のある結論を導くことです。

今のAIは「優秀だがサボり癖のある天才」です。このプロンプトによって「サボらず考えろ」と指示を出すことが、現時点での最も効果的なAI活用術となります。

参考文献

[1] Vaswani, A., et al. (2017). "Attention Is All You Need". Advances in Neural Information Processing Systems, 30.

[2] Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?". Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21).

[3] Zhang, Y., et al. (2023). "Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models". arXiv preprint arXiv:2309.01219.

[4] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

[5] Bengio, Y. (2020). "Deep Learning for System 2 Processing". AAAI Conference on Artificial Intelligence.

[6] Wei, J., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models". Advances in Neural Information Processing Systems, 35.

[7] OpenAI. (2024). "OpenAI o1 System Card". OpenAI Technical Report.

[8] LeCun, Y. (2022). "A Path Towards Autonomous Machine Intelligence". OpenReview.

[9] Trinh, T. H., et al. (2024). "Solving olympiad geometry without human demonstrations". Nature, 625.

[10] Gu, A., & Dao, T. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". arXiv preprint arXiv:2312.00752.

[11] Kojima, T., et al. (2022). "Large Language Models are Zero-Shot Reasoners". Advances in Neural Information Processing Systems, 35.

[12] Wang, L., et al. (2023). "Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models". Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023).