Takeshi Ikemoto

医療 × 経営 × テクノロジー

·note記事·note

生成AIの「次単語予測」限界論と、AIが「思考」を獲得するための4つのパラダイム

AIChatGPT生成AI未来思考Geminiテクノロジー技術人工知能LLMプロンプトエンジニアリングAGI大規模言語モデル深層学習汎用人工知能ダニエルカーネマンSystem2System1

1. はじめに:トランスフォーマーの栄光と「確率の罠」

現在、世界を席巻しているChatGPTやGeminiなどの生成AIは、例外なく「トランスフォーマー(Transformer)」というアーキテクチャを採用しています[1]。その能力は驚異的ですが、根本的な原理は非常にシンプルです。それは、過去の文脈から「確率的に最もありそうな次の単語(トークン)」を予測して出力しているだけに過ぎません。

極端な言い方をすれば、現在のAIは「意味を理解して考えている」のではなく、「膨大なデータから学習したパターンマッチングで、それっぽい言葉を並べている」状態です。

これは研究者の間では「確率的なオウム(Stochastic Parrots)」とも呼ばれる性質であり[2]、そのため、もっともらしい顔をして平気で嘘をつく(ハルシネーション)という弱点を抱えています[3]。

では、AIが単なる「確率予測マシン」を脱し、人間のような「思考」を手に入れるためには、何が必要なのでしょうか。

現在、世界中の研究機関がその実現に向けてしのぎを削っています。

本記事では、その最前線の取り組みを以下の流れで解説します。

まずは、AIが目指すべきゴールである「思考」の正体について、認知科学の視点から紐解いていきましょう。

2. 「思考」の正体:AIにおける「直感」の誤解と本質

そもそも「思考」とは何でしょうか。認知科学やAIの歴史において、知能をどう捉えるかには大きく4つの主要なパラダイムが存在します。

これらの技術的なアプローチを人間の思考プロセスと照らし合わせ、現在のAIに何が足りないのかを整理するための「羅針盤」として、現在広く参照されているのが、ノーベル経済学賞受賞者ダニエル・カーネマンが提唱した「二重過程理論(System 1 & 2)」です[4]。

カーネマンが解き明かした「人間のバグ」とSystem 1/2

なぜ、この理論が選ばれているのでしょうか? それを理解するために、まずはカーネマンが定義した「思考の正体」を見てみましょう。

この理論が生まれた背景には、「人間は本当に合理的なのか?」という根源的な問いがありました。かつての経済学は「人間は常に自分の利益を最大化するように論理的に行動する」と仮定していましたが、現実はそうではありません。私たちは衝動買いをし、確率計算を間違え、偏見で判断を歪めます。

カーネマンは、こうした「人間の判断のバグ(非合理性)」を心理学的な実験で次々と暴き出しました。そして、人間が常に論理的(System 2)に考えているわけではなく、日常の多くの判断を「省エネで簡便な直感(ヒューリスティクス)」に委ねていることを突き止めました。

彼は人間の思考モードを、以下の2つに分類しました。

AIの歴史は「System 2」から「System 1」へ

ここでAIの歴史を振り返ると、非常に興味深い事実が見えてきます。実は、AIの進化の歴史は、このSystem 2からSystem 1への移行そのものだったのです。

つまり、世界中の研究者が今目指しているのは、「System 1(今のAI)に、かつて捨てたSystem 2(論理)の力を再統合する」ことなのです。

System 1には「2つの顔」がある

しかし、ここで多くの人が陥る誤解があります。「System 1=直感(AIはこれが得意)」と単純に片付けてしまうと、AIが抱える本質的な欠陥を見落としてしまうのです。

カーネマンは、System 1(速い思考)には本来2つの種類が含まれるとしています。

今のAIが持つ「直感」は本物か?

現在の生成AI(LLM)は、System 1的な振る舞いが非常に得意です。質問されれば、人間よりも早く、それらしい答えを返します。しかし、それは医師や経営者が持つ「プロの直感」と同じものなのでしょうか?

答えは「No」です。

AIの「直感」は、Web上のテキストデータ(形式知)を統計的に繋ぎ合わせた「確率のパッチワーク」に過ぎません。そこには、現場の空気感、失敗の痛み、言葉にならない暗黙知といった、本来の直感を支える「身体的な経験」が完全に欠落しています。

つまり、今のAIは「教科書を丸暗記しただけの医学生」のような状態です。知識量は凄まじいですが、未知の現場や複雑な文脈に直面したとき、本物のプロが発揮するような「暗黙知ベースの直感」は機能しません。

暗黙知の壁を超えるための挑戦

もちろん、研究者たちもこの「暗黙知の欠如」に手をこまねいているわけではありません。現在、この壁を乗り越えるために、大きく2つのアプローチで「暗黙知の形式知化」が進められています。

しかし、これらのアプローチをもってしても、まだ「人間レベルの思考(AGI)」には到達していません。そこで必要になるのが、次の章で解説する「System 2」の本格的な実装です。

なぜ「System 2」が必要なのか

だからこそ、AIがAGI(汎用人工知能)へと進化するためには、この「統計的な似非直感(System 1)」だけでは限界があります。

Webデータにない未知の問題に直面したとき、立ち止まり、論理を組み立て、仮説検証を繰り返す「System 2(遅い思考・熟考)」の能力。そして、言葉にならない現実世界を理解するための「世界モデル」。

これらを獲得して初めて、AIは「確率予測マシン」を卒業し、医師や経営者のような「深い洞察」に近づくことができるのです。次章からは、その実現に向けた具体的なアプローチを見ていきましょう。

現状のAI(トランスフォーマー)は、まさに「System 1の塊」です。 直感的に答えを出すのは得意ですが、立ち止まって考えるSystem 2の機能が欠けています。これからのAI開発の焦点は、「いかにしてAIにSystem 2(熟慮・論理)を実装するか」にあります[5]。

3. 次世代AIへのアプローチ:改良か、刷新か

AIに「System 2」を実装し、現在の限界を突破するために、世界では大きく分けて「既存技術の改良(運用面の進化)」と「構造の刷新(パラダイムの進化)」という2つの方向で、計4つのアプローチが進行しています。

A. 現状技術の「運用」を進化させる(Processの進化)

トランスフォーマー自体は使い続け、「考えさせ方」を工夫することで限界を超えるアプローチです。

① 推論時計算(Inference-Time Compute)

~「すぐに答えるな、考えろ」の実装~

OpenAIの「o1」モデルなどが採用している、今最も実用化が進んでいる手法です。

B. AIの「構造」自体を刷新する(Paradigmの進化)

「トランスフォーマー(確率予測)」の構造的欠陥を指摘し、全く新しい仕組みを取り入れる3つのアプローチです。

② 世界モデル(World Models / JEPA: Joint Embedding Predictive Architecture)

~「言葉」から「意味・世界」の理解へ~

Meta社のヤン・ルカン(Yann LeCun)氏らが提唱。「次単語予測は行き止まりである」とする急進的なアプローチです[8]。

LLMが「次の単語」という記号を予測するのに対し、世界モデルは「次の瞬間の物体の位置や状態」を予測します。

これにより、言葉を介さずに、まるで人間の赤ちゃんが目で見て物理法則を学ぶように、脳内で世界のシミュレーションを行えるようにします[8]。

③ ニューロシンボリックAI

~「直感」×「論理」の完全融合~

Google DeepMindなどが進める、「絶対に間違えてはいけない領域」のための技術です。

Chain of Thoughtが「言葉の確率で論理を模倣する(間違える可能性がある)」のに対し、こちらは「計算や論理証明を、プログラムとして厳密に実行する」点が決定的に異なります。

言語モデルは問題を数式やコードに翻訳する役割に徹し、解くのは「計算機(ソルバー)」が行うため、計算ミスが起きません。

もちろん「正しく翻訳できるか」という課題は残りますが、生成したコードを実行してエラーが出れば自己修正できるため、言葉だけで考えるより遥かに堅牢です。

④ 状態空間モデル(SSM: State Space Models / Mamba)

~「記憶」の構造改革~

トランスフォーマーの最大の弱点である「計算コスト(二乗計算量)」の壁を壊すアプローチです[10]。

- 今のAI(Transformer / Claude Code等 毎回、過去の会話履歴を最初から全部読み直して計算し、回答が終わるとその計算結果は捨てられます。次の発言時もまた最初から読み直すため、会話が長くなると動作が重くなります。 (比喩:発言するたびに、会議の録音テープを最初から最後まで全部聞き直して、「えーと、あの時こう言ったから…」と考えます。会議が長引くと、聞き直す時間がどんどん長くなります。)

- SSM(State Space Models) 読んだ内容を、生のテキストのままではなく、「圧縮された要約データ(=状態)」に変換して取り込みます。新しい情報が来るたびに、この要約データを上書き更新します。過去のテキスト自体は読み直さず、「最新の要約データ」だけを持っていればよいため、どれだけ記憶が増えても動作が重くなりません。 (比喩:会議の録音を聞き直すのではなく、手元の「メモ」だけを見て即答する人)

- なぜまだ主流ではないのか? 「メモ(要約)」を作る際、重要でないと判断して捨てた情報は二度と思い出せないためです。「3時間前の会話の、あの些細な一言」を正確に思い出すようなタスク(コピー能力)では、全部録音しているTransformerにまだ劣る部分があります。

4. 結論:AGI(汎用人工知能)への最短ルートは?

これら4つのアプローチの中で、どれが最もAGIに近いのでしょうか。

最終的なAGIの完成形は、これら全てのパラダイム(推論能力、世界理解、論理的厳密さ)が一つに統合された姿になると予測されます。

5. 実践編:私たちが今すべき「プロンプト戦略」

未来の技術を待つ間、私たちはどうすればいいのでしょうか。重要なのは、私たち人間がプロンプトで、今のAIに「System 2」の役割を強制することです。

「ステップ・バイ・ステップで考えてください(Let's think step by step)」という指示だけでAIの推論能力が向上することは、論文『Large Language Models are Zero-Shot Reasoners』でも実証されています[11]。また、問題を分解して計画を立てさせる「Plan-and-Solve」アプローチも有効です[12]。

ChatGPTの「GPTs」やGeminiの「Gems」でカスタム指示(Instructions)を設定する際、以下の内容を含めることで、AIの「直感的な浅い回答」を防ぎ、論理的な思考を引き出すことができます。

【System 2 強制プロンプト(コピペ推奨)】

AIへの指示欄(System Instructions)に以下を入力してください。

あなたは単なるチャットボットではなく、論理的な思考パートナーです。 ユーザーからの問いに対して、System 1(直感)で即答することを禁止します。 回答を出力する前に、必ず以下の「System 2(熟考)プロセス」を内部的に実行してください。

あなたの役割は、確率的に高い言葉を並べることではなく、論理的整合性のある結論を導くことです。

今のAIは「優秀だがサボり癖のある天才」です。このプロンプトによって「サボらず考えろ」と指示を出すことが、現時点での最も効果的なAI活用術となります。

参考文献

[1] Vaswani, A., et al. (2017). "Attention Is All You Need". Advances in Neural Information Processing Systems, 30.

[2] Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?". Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21).

[3] Zhang, Y., et al. (2023). "Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models". arXiv preprint arXiv:2309.01219.

[4] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

[5] Bengio, Y. (2020). "Deep Learning for System 2 Processing". AAAI Conference on Artificial Intelligence.

[6] Wei, J., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models". Advances in Neural Information Processing Systems, 35.

[7] OpenAI. (2024). "OpenAI o1 System Card". OpenAI Technical Report.

[8] LeCun, Y. (2022). "A Path Towards Autonomous Machine Intelligence". OpenReview.

[9] Trinh, T. H., et al. (2024). "Solving olympiad geometry without human demonstrations". Nature, 625.

[10] Gu, A., & Dao, T. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". arXiv preprint arXiv:2312.00752.

[11] Kojima, T., et al. (2022). "Large Language Models are Zero-Shot Reasoners". Advances in Neural Information Processing Systems, 35.

[12] Wang, L., et al. (2023). "Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models". Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023).