Takeshi Ikemoto

医療 × 経営 × テクノロジー

·note記事·note·feature

【AI半導体を理解する 第1回/全6回】AIの「学習」と「推論」— なぜこの違いが数兆円産業の勝敗を分けるのか

生成AIデータセンターgpuAI半導体電力問題

はじめに:なぜ今、この基礎を理解すべきなのか

近年、AI(人工知能)への投資は世界で急速に拡大しています [1]。ただ、いま起きていることは「AIがすごい」で終わりません。AIの需要(学習・推論)が増えるほど、半導体(計算)とエネルギー(電力・冷却)、そして設備投資が一本の鎖でつながって動く——その現実が、ニュースの形で表に出てきています。

たとえばOracleをめぐっては、OpenAI向けに開発している一部の設備について、建設労働者と資材の不足を背景に完成が2028年へずれ込む可能性がある、と報じられました(同記事では、OracleとOpenAIのデータセンター契約が3000億ドル規模とされています)。ただしOracleは遅延を否定しています [18]。

またNVIDIAについても、推論を支える半導体(AI推論チップ)をめぐる競争が激しくなる中で、AI推論チップ企業Groqの資産を200億ドル規模で取得し、非独占の技術ライセンス契約や主要人材の獲得を含む取引に踏み切った、と報じられています [19]。

これらは別々の話ではありません。AI(何をどれだけ計算するか)が増えるほど、半導体(どんな計算をどの精度で回すか)と、エネルギー(どれだけの電力・冷却が要るか)が同時に問われます。

そして、その結果として建設計画や調達が制約になります。だからこそ、この資金がどこに流れ、誰が勝者となるのかを理解するには、まずAIの根本である—「学習(Training)」と「推論(Inference)」という二つのフェーズの違いを正確に理解する必要があります。

本シリーズは、半導体・エネルギー・AIが密接に結びついて動く現在の覇権争いについて、私自身が理解したいと思い、調べたことを整理したものです。全6回で以下のテーマを扱います。

第1回となる本稿では、「学習」と「推論」とは具体的に何なのか、なぜこの区別が重要なのか、そして必要とされる計算資源がどう異なるのかを、技術的な仕組みに踏み込みながら整理していきます。

第1章:AIとは「数学的な予測モデル」である

1-1. AIの本質:パターンを見つけ、予測する機械

AIという言葉は広く使われ、画像認識や需要予測などさまざまな分野を含みます。本シリーズで扱うのは、その中でも文章を生成する生成AIです。生成AI(大規模言語モデル:LLM)とは、膨大な文章からパターンを取り込み、そのパターンに沿って「次に来る情報」を予測する数学的なモデルです。

この第1章では、第2章以降の土台として、「学習(Training)」と「推論(Inference)」が“同じ予測”を別の目的で使っていることを、1本の流れでつかみます。

ミニ例:文章は“穴埋め問題”にできる

このミニ例では、生成AIの学習が「次の1トークンを当てる穴埋め問題」として回っていることを確認します(この理解が第2章の土台になります)。

たとえば学習データの1文が次の通りだったとします。

このとき学習では、文章を1トークンだけ「右にずらす(シフトする)」だけで、入力と「データ上の次の語(続き)」が作れます(人手でラベル付けする必要がありません)。

別の学習データでは「雨」が「データ上の次の語(続き)」になります。こうした例が大量にあるため、モデルは「この文脈では晴れも雨もあり得る」を確率分布として学んでいきます。

このように、人間がラベル付けをしなくても文章そのものから「データ上の次の語(続き)」が作れる学習は、より正確には 自己教師あり学習(self-supervised learning) と呼ばれます [2]。

1) モデルは「次の候補すべて」に確率を配る

モデルは入力を受け取ると、次に来るトークン候補(語彙の全候補)に対して、こんな確率分布を出します。

ここで「推論(Inference)」なら、確率が高いもの(例:晴れ)を選ぶ、または確率に応じてサンプルして選びます。 これを繰り返すことで、文章が1トークンずつ生成されます。

2) 「誤差(損失)」は、「データ上の次の語(続き)」の確率が低いほど大きい

学習では、上の分布に対して「データ上の次の語(続き)は晴れでした」と分かっています。 なので、「データ上の次の語(続き)」(晴れ)の確率が高いほど良い、と定義できます。 逆に「データ上の次の語(続き)」の確率が低いと、「外している」ので誤差(損失)が大きい、とみなします。

(厳密には、こうした誤差の定義として交差エントロピー損失などが用いられますが、ここでは「データ上の次の語(続き)の確率を上げるほど誤差が下がる」と押さえれば十分です)[3]。

※この「データ上の次の語(続き)」「確率分布」「誤差(損失)」の3点セットが、次章のステップ2(予測)とステップ3(誤差=損失)にそのまま対応します。

誤差が大きい場合は、その誤差が小さくなる方向に、パラメータ(重み)を少しだけ更新します。 この更新を数学的に実行するのが、誤差逆伝播法(Backpropagation)と勾配降下法です [3]。

これを膨大な文章に対して繰り返すと、モデルは「この文脈なら次は“晴れ”が出やすい」といったパターンを重みに取り込みます。

ここで押さえる結論:学習と推論は“同じ予測”を別の目的で使う

生成AIの学習は、結局この4ステップの反復

上のミニ例を、現実にはWebや書籍など膨大な文章に対して回します。流れは次の4つに要約できます(次章でこの形のまま、もう少し定量的に扱います)。

- 誤差(損失):「データ上の次の語(続き)」に割り当てた確率が低いほど大きい 例:モデルが「今日の天気は」の次に「晴れ」を強く出す癖があるのに、学習データが「今日の天気は雨です」なら、「雨」に十分な確率を付けられず損失が大きい

この反復でモデルが“賢くなる”とは、直感的には 「データ上の次の語(続き)に高い確率を付けられる場面が増える」 ということです。

この一連を実現しているのがニューラルネットワークで、現在の大規模言語モデルの多くは Transformer(トランスフォーマー) を採用します。Transformerは 自己注意(Self-Attention) によって「文中のどの部分が次の予測に効くか」を計算します。[17]

1-2. パラメータとは何か:AIの「記憶装置」

ここから先は、学習データに実際に続いている「次の1トークン」を、簡単のため 「データ上の続き」と呼びます。

次に、「パラメータ(重み)」という言葉を、もう少し読者向けに言い換えます。

パラメータ(重み)は一言でいえば、確率分布を作るための“調整つまみ”です。 より正確には、モデル内部の掛け算・足し算に入り込む多数の数値で、同じ入力でも出力(確率分布)がどう変わるかを決めます。 モデルは入力(トークン列)を受け取ると内部で大量の計算をしますが、その計算の挙動を決めているのがパラメータです。 パラメータが違えば、同じ入力でも出てくる確率分布(晴れ0.40/雨0.35/…)は変わります。

そして、学習とはこの“つまみ”を少しずつ回して、「データ上の続き」により高い確率が割り当たる状態に近づけるプロセスです。

以降、本記事では「モデルのパラメータ数(重みの総数)」を (N) と表します。これは、この“つまみ”の総数です。 直感的には、つまみが増えるほど、学習でも推論でも“読む・計算する・保存する”量が増えるため、計算量とメモリ要求がまず (N) に強く支配されます。

具体的な規模を示すと:

※補足:GPT-4/Claude/Gemini などの商用フロンティアモデルはパラメータ数が非公開であることが多く、「何兆パラメータか」を断定するより、学習に投じた計算量や推論コスト(MoEの場合は“有効に使うパラメータ”)で規模感を語る方が正確です。 また、同じパラメータ数でも、MoE(Mixture of Experts:専門家混合)のように「全パラメータの一部だけを毎回使う」設計かどうか、あるいは推論時計算(回答時に追加で“考える”)を行うかどうかで、必要な計算資源や実用上の性能(回答の質・応答速度など)は大きく変わり得ます。[16]

パラメータ数が多いほど、モデルはより複雑なパターンを記憶し、より高度な予測が可能になります。しかし同時に、これらのパラメータを「学習」させるためには、膨大な計算資源が必要となります。

第1章の要点(次章へ)

次章では、この流れを「学習の4ステップ」として、より機械的・定量的に説明します(計算量 (N) とトークン数 (D) が、なぜコストを支配するのかが見えるようになります)。 つまり、ここで押さえた (N) と (D) は「どれだけの計算資源と電力が要るか」を左右し、結果としてAI産業の投資配分や競争力に直結します。

第2章:「学習」とは何か — AIに知識を教え込むプロセス

2-1. 学習の定義:データから最適なパラメータを見つける作業

学習(Training) とは、AIモデルに大量のデータを見せて、「データ上の続き」に高い確率が出るように重み(パラメータ)を調整していく作業です。第1章で見た流れを、ここでは「機械として見る」とどうなるか、4ステップに分解します。

ステップ1:入力(データを入れる) Webや書籍などの文章(トークン列)をモデルに与えます。

ステップ2:予測(確率分布を出す) たとえば入力が「今日 / の / 天気 / は」なら、次に来る候補(晴れ・雨・曇り…)それぞれに確率を割り当てます。

ステップ3:誤差(損失)を計算する 学習データには「データ上の続き(次の1トークン)」が実際に書かれています。モデルがその「データ上の続き」に十分な確率を付けられていなければ損失が大きい、と数値化します [3]。

ステップ4:更新して、反復する 損失が小さくなる方向に重みを少しだけ動かします(逆伝播+勾配降下)[3]。この4ステップをデータ全体に対して何度も回します。データ全体を1周する単位は「エポック(epoch)」と呼ばれます。

2-2. 学習に必要な計算量:スケーリング則

学習に必要な計算リソースは、モデルの規模と学習データ量に比例して増大します。OpenAIやDeepMindの研究では、学習に必要な総計算量 (C) は概算として、パラメータ数 (N) と 学習トークン数 (D) の積にほぼ比例すると整理されています [3]。

C ≒ 6 × N × D

ざっくり言えば、モデルが大きいほど((N))、学習データが多いほど((D))、学習に必要な計算は増えます。

ここで

この式が示す重要な点は、モデルを2倍の精度に高めようとすると、パラメータ数と学習データ量の両方を増やす必要があり、結果として計算コストは4倍以上に増大するということです。

具体例を挙げると、GPT-3の学習には約 $3.14 \times 10^{23}$ FLOPS(浮動小数点演算)が必要でした。これは、当時最高性能のGPU(Graphics Processing Unit:画像処理装置。例:NVIDIA A100)を1万台以上、数ヶ月間稼働させる規模に相当します [2]。

2-3. 学習における「メモリの壁」

学習プロセスが膨大な計算資源を必要とするもう一つの理由は、データの移動(メモリ帯域幅) にあります。

ここで押さえておきたいのは、コンピュータが大きく 「計算する場所(演算器)」 と 「データを置く場所(メモリ)」 に分かれている点です。演算器は非常に高速に計算できますが、計算に使うデータ(重みや途中結果)をメモリから運ぶ速度には上限があります。この「1秒あたりに運べるデータ量」を メモリ帯域幅 と呼びます。

学習時には、モデルのパラメータだけでなく、誤差逆伝播法に必要な中間計算結果(「アクティベーション」と呼ばれる)をすべてメモリ上に保持しなければなりません。そして、各計算ステップでこれらのデータをプロセッサ(演算装置)に転送する必要があります [4]。

ここで問題となるのが「メモリの壁(Memory Wall)」です。プロセッサの演算速度は年々高速化していますが、メモリからデータを読み書きする速度の向上は、それに追いついていません。結果として、演算器がデータの到着を待つ「待機時間」が発生し、せっかくの演算能力が無駄になる現象が起きています [4]。

この問題を解決するために、最新のAI半導体はHBM(High Bandwidth Memory:高帯域幅メモリ) という特殊なメモリを採用しています。HBMは、メモリチップを垂直に積み重ね、プロセッサと直接接続することで、通常のメモリの数十倍の速度でデータを転送できます。

第3章:「推論」とは何か — 学習済みモデルを使って回答を生成するプロセス

3-1. 推論の定義:学習した知識を使って予測を出力する

推論(Inference) とは、第1章で見た通り、学習済み(重み固定)のモデルに新しい入力を与え、次トークンの確率分布から選びながら出力(回答)を生成する処理です。ChatGPTに質問して返答が返る—この一連が推論にあたります。

推論は学習と比較して以下の点で根本的に異なります。

一方向の処理 学習では誤差を計算してパラメータを更新する「往復」処理が必要ですが、推論では入力から出力への「一方向」処理のみで済みます。誤差逆伝播法も不要です。

中間データの保持が不要 学習では中間計算結果をすべて保持する必要がありましたが、推論では各ステップの計算が終われば中間データを破棄できます。これにより、必要なメモリ量は大幅に削減されます。

1回あたりの計算量は少ない 1つの質問に対する1つの回答を生成する計算量は、モデル全体を学習させる計算量と比較すると、桁違いに少なくなります。

3-2. 推論のボトルネック:トークンごとの逐次処理

しかし、推論には学習とは異なる独自の課題があります。それは 自己回帰(Autoregressive)、つまり 「これまでに生成したトークン列」を手がかりに、次の1トークンを順番に生成していく方式です [5]。

LLMが文章を生成する際、1つのトークン(単語やサブワード)を生成するためには、それまでに生成したすべてのトークンを参照する必要があります。つまり、「今日」→「の」→「天気」→「は」→「晴れ」→「です」という文を生成する場合、各トークンを順番に、一つずつ生成しなければなりません。

この逐次処理の構造が、推論における重大なボトルネックを生み出します:

1. メモリ帯域幅の制約 各トークンを生成するたびに、モデルの全パラメータ(数百億〜数兆個)をメモリから読み出す必要があるため、推論ではメモリ帯域幅がボトルネックになりやすい、という構造があります [5]。

2. レイテンシ(応答遅延)の問題 ユーザーがChatGPTに質問してから回答が表示されるまでの時間(レイテンシ)は、ユーザー体験を大きく左右します。リアルタイムの対話型AIでは、100ミリ秒以下のレイテンシが求められることもあります。

3. 同時接続数の課題 1つのAIサービスに何百万人ものユーザーが同時にアクセスする場合、限られた計算資源で多数のリクエストを効率的に処理する必要があります。

3-3. 推論コストの構造:運用費用(OpEx: Operating Expenses)の世界

学習と推論の経済的な違いも重要です。

学習コスト = 設備投資(CapEx: Capital Expenditures)的性格 学習は、モデルを一度完成させるための「一回限りの」巨額投資です。学習コストには、学習用の計算資源(GPU/サーバーの購入・レンタル)、データセンターの運用費(電力・冷却・ネットワーク)、データ整備、開発体制(人件費)などが含まれます。フロンティア級のモデルではこの投資が特に大きくなりますが、一度学習が完了すれば、そのモデルは何度でも使えます。

推論コスト = 運用費用(OpEx: Operating Expenses)的性格 推論は、ユーザーがサービスを利用するたびに発生する「継続的な」コストです。ユーザー数が増えれば増えるほど、推論に必要な計算資源と電力は増大します [6]。

現在のAI企業が直面している最大の課題の一つが、この推論コストの管理です。ChatGPTのような人気サービスでは、一部のヘビーユーザーが消費する推論コストが、月額料金の数百倍に達することもあると報告されています [6]。

この「学習は一回限りの投資(CapEx)/推論は使われるほど増える運用費(OpEx)」という違いは、AIサービスの価格設計や収益モデル、投資判断を大きく左右します。

第4章:学習と推論で必要な半導体はどう違うのか

4-1. 学習に最適な半導体:並列演算と大容量メモリ

学習フェーズで求められる半導体の特性は以下の通りです。

(1)極めて高い並列演算能力 学習で行われる行列演算は計算量が非常に大きく、現実的な時間で学習を終えるには、膨大な掛け算・足し算をできるだけ同時並行に処理する必要があります。したがって、「同じ命令を異なるデータに対して同時に実行する」能力に優れた半導体が有利です。これがGPU(Graphics Processing Unit:画像処理装置)がAI学習に適している最大の理由です [7]。

学習の中身は、突き詰めると「大量の掛け算・足し算の繰り返し」です。ニューラルネットワークは、入力と重み(多数の数値)を使って次の値を計算しますが、この計算が行列演算としてまとめて実行されます。さらに学習では、損失を小さくするために、同じタイプの計算を何度も行いながら重みを少しずつ調整していきます(逆伝播)。

実務では複数のデータをまとめて処理することが多いため(バッチ処理)、同じ形の行列演算が一度に大きくなります。その結果、学習は分岐の多い複雑な処理というより、同じ計算を大量のデータに対して一斉に実行する負荷になりやすく、並列計算が得意なGPUが力を発揮します。

CPUは複雑な命令を高速に処理することに長けていますが、同時に実行できる処理の数は数十に限られます。対してGPUは、単純な命令しか実行できませんが、数千から数万の処理を同時に実行できます。

(2)大容量・高帯域幅のメモリ 前述の「メモリの壁」を克服するため、学習用半導体にはHBM(高帯域幅メモリ)の搭載が不可欠です。2025年現在、最新のNVIDIA Blackwell B200は8TB/秒という驚異的なメモリ帯域幅を実現しています [8]。

(3)高速なチップ間通信 学習では、「GPUの中で重みを読み書きする速さ(メモリ帯域幅)」に加えて、複数のGPUの間でデータを受け渡しする速さも効いてきます。

大規模モデルは1枚のGPUに収まりきらないことが多く、複数のGPUにモデルや計算を分担させて学習します。このとき、途中結果(活性化)や勾配などをGPU間で頻繁にやり取りするため、通信が遅いと全体の学習がそこで詰まります。そこで重要になるのが、GPU間を高速に結ぶ「インターコネクト(相互接続)」です。NVIDIAのNVLinkやInfiniBandがこの役割を担っています [9]。

4-2. 推論に最適な半導体:効率と低レイテンシ

推論フェーズで求められる特性は、学習とは異なります。

(1)電力効率(ワットあたりの性能) 推論は24時間365日、継続的に行われるため、消費電力が運用コストに大きく影響します。学習用GPUは性能最優先で設計されていますが、推論では「1ワットあたり何トークン生成できるか」という効率が重視されます [10]。

(2)低レイテンシと確定的な応答時間 リアルタイムアプリケーション(音声対話、自動運転など)では、処理時間の「揺らぎ」が許されません。学習用GPUは処理時間が変動することがありますが、推論用に特化したチップは、一定の時間内に必ず処理を完了する「確定的」な動作が求められます [10]。

(3)コスト効率 学習は一度きりですが、推論は膨大な回数行われます。したがって、1回の推論あたりのコストを最小化することが経済的に重要です。高価な最新GPUよりも、安価な専用チップ(ASIC:Application Specific Integrated Circuit=特定用途向け集積回路)が適する場合があります [11]。

4-3. 精度の違い:学習は高精度、推論は低精度で可能

もう一つの重要な違いは、計算に使用する「数値の精度」です。

コンピュータは数値を2進数(0と1)で表現しますが、使用するビット数によって表現できる精度が変わります:

学習では、損失を小さくするために重みを「少しずつ」更新していきます。この更新は小さな差分の積み重ねなので、計算の丸め誤差が大きいと更新の方向がぶれたり、学習が不安定になったりします。そのため、学習では比較的高い精度(FP32やFP16/BF16など)が必要になります。

一方の推論は、学習済みの重みを使って「前向き計算」を行い、確率分布から次トークンを選ぶ処理です。推論では重み自体を更新しないため、計算精度を下げても結果が大きく崩れない範囲があり、用途に応じてFP8/INT8、場合によってはFP4/INT4などの低精度が使われます(ただし精度を下げすぎると、回答の質が落ちたり、特定のタスクで誤差が目立ったりすることもあります)[12]。

低精度計算を採用することで、同じチップで2〜4倍のスループット(処理能力)を実現できます。たとえばNVIDIAは、Blackwell世代でFP4(NVFP4)精度の推論に対応し、従来のFP8と比較してスループットが大きく向上すると説明しています [12]。

第5章:なぜこの区別が「数兆円産業の勝敗」を分けるのか

5-1. 投資の焦点が「学習」から「推論」へシフトしている

2023年から2024年にかけてのAI投資は、主に「学習」に向けられていました。各企業や国家が競って独自のAIモデルを開発しようとし、学習用GPUの争奪戦が繰り広げられました。

しかし近年、焦点は「学習」だけでなく、実際に使われる段階である「推論」へと移りつつあります。その理由は以下の通りです。

(1)フロンティアモデルの収束 OpenAI、Google、Anthropicなどが開発するフロンティアモデル(最先端モデル)の性能差は縮小しつつあります。「どのモデルが最も賢いか」よりも、「どれだけ安く、速く、多くのユーザーにサービスを提供できるか」が競争の焦点となっています。

(2)AIの社会実装フェーズへの移行 AIは研究開発段階から、実際のビジネスや日常生活で使われる「実装フェーズ」に入りました。多くの企業がAI導入を加速させており、推論需要は増大しています [13]。

(3)エージェント型AIの普及 従来の「一問一答」型のチャットボットから、複数のステップを自律的に実行する「エージェント型AI」への進化が進んでいます。エージェント型AIは、1つのタスクを完了するまでに複数回の推論を行うため、推論需要を押し上げます [6]。

5-2. 推論市場の規模と成長予測

推論市場の成長は、学習市場を大きく上回ると予測されています。

この構造変化は、半導体産業の勝者を再定義する可能性があります。学習フェーズで圧倒的な覇権を握ったNVIDIAが、推論フェーズでも同様の地位を維持できるかどうかは、まさに現在進行中の問いです。

5-3. 新たな競争軸:「最速」から「最も効率的」へ

学習フェーズでは、「いかに速くモデルを完成させるか(Time-to-Train)」が最優先事項でした。競合より1週間早く新モデルをリリースすることの経済的価値は計り知れず、コストは二の次でした。

しかし推論フェーズでは、競争軸が根本的に変わります。

(1)1トークンあたりのコスト(Cost per Token) ユーザーが支払う料金と、1トークン生成にかかる実コストの差が利益を決定します。推論コストを半分にできれば、同じ収益で2倍の利益を得られます。

(2)電力効率(Tokens per Watt) データセンターの運用コストにおいて、電力は主要な項目です。1ワットあたり何トークン生成できるかが、長期的な競争力を左右します [10]。

(3)総所有コスト(TCO:Total Cost of Ownership) チップの購入価格だけでなく、電力、冷却、設置面積、保守費用を含めた総コストで判断されます。高価な最新GPUよりも、安価な専用チップの方がTCOで優れる場合があります [11]。

第6章:ビジネスパーソンが理解すべきポイント

6-1. So What? — この知識がなぜあなたに関係するのか

AIの「学習」と「推論」の違いを理解することは、以下の理由でビジネスパーソンにとって重要です。

(1)AI導入のコスト構造を正しく評価できる 自社でAIを導入する際、初期のモデル開発コスト(学習)と、継続的な運用コスト(推論)を区別して考える必要があります。多くの企業がAI導入の初期費用にばかり注目し、運用フェーズで予想外のコスト増大に直面しています。

(2)AIサービス提供者の競争力を判断できる AIサービスを選定する際、そのプロバイダーが推論コストをいかに効率化しているかが、長期的なサービス品質と価格競争力を左右します。

(3)AI関連投資の判断材料となる 半導体企業、クラウド企業、AI企業への投資を検討する際、「学習フェーズの勝者」と「推論フェーズの勝者」が異なる可能性を認識することが重要です。

6-2. 注意すべき不確実性

ただし、以下の不確実性には留意が必要です。

(1)技術革新による前提の変化 たとえば注意計算(Attention)の高速化のように、アルゴリズムや実装の革新によって、同じ精度に到達するための計算効率が大きく改善する可能性があります [14]。技術的ブレークスルーは、現在の競争構造を根底から覆し得ます。

(2)市場予測の不確実性 AIの推論需要が予測通りに成長するかどうかは、AIの実際の普及速度と、キラーアプリケーションの登場に依存します。過去のテクノロジーバブルの教訓として、過度な楽観予測には注意が必要です。

(3)規制環境の変化 AI規制、エネルギー政策、貿易規制(半導体輸出規制など)は、産業構造に大きな影響を与え得ます。

結論:学習と推論の違いは、AI産業の地図を読むための「コンパス」

本稿では、AIの「学習」と「推論」という二つのフェーズの違いを、技術的な仕組みに踏み込みながら整理してみました。

学習は、データからパターンを抽出してパラメータを最適化する、一回限りの巨額投資です。並列演算能力、大容量メモリ、高速通信が求められ、現在はNVIDIAのGPUが支配的な地位を占めています。

推論は、学習済みモデルを使って回答を生成する、継続的な運用プロセスです。電力効率、低レイテンシ、コスト効率が求められ、専用チップやハイパースケーラーの自社製半導体が台頭しつつあります。

2025年以降、AI産業の主戦場は学習から推論へと移行し、「最速のチップ」ではなく「最も効率的なシステム」が勝利する時代に入ります。次回以降は、この転換期において各プレイヤー—NVIDIA、Google、Amazon、そして新興スタートアップ—がどのような戦略を展開しているかを整理していきます。

参考文献

本記事は、以下の一次資料に基づいて作成されています。

[1] Stanford University, "AI Index Report". Available at: `https://aiindex.stanford.edu/report/` https://aiindex.stanford.edu/report/%60 [2] Brown et al., "Language Models are Few-Shot Learners" (GPT-3, 2020). Available at: `https://arxiv.org/abs/2005.14165` https://arxiv.org/abs/2005.14165%60 [3] Kaplan et al., "Scaling Laws for Neural Language Models" (2020). Available at: `https://arxiv.org/abs/2001.08361` https://arxiv.org/abs/2001.08361%60 ; Hoffmann et al., "Training Compute-Optimal Large Language Models" (Chinchilla, 2022). Available at: `https://arxiv.org/abs/2203.15556` https://arxiv.org/abs/2203.15556%60 [4] Wikipedia, "Memory wall". Available at: `https://en.wikipedia.org/wiki/Memory_wall` https://en.wikipedia.org/wiki/Memory_wall%60 [5] Wikipedia, "Autoregressive model". Available at: `https://en.wikipedia.org/wiki/Autoregressive_model` https://en.wikipedia.org/wiki/Autoregressive_model%60 [6] Yao et al., "ReAct: Synergizing Reasoning and Acting in Language Models" (2022). Available at: `https://arxiv.org/abs/2210.03629` https://arxiv.org/abs/2210.03629%60 [7] NVIDIA, "Tensor Cores". Available at: `https://www.nvidia.com/en-us/data-center/tensor-cores/` https://www.nvidia.com/en-us/data-center/tensor-cores/%60 [8] NVIDIA, "NVIDIA Blackwell B200 Tensor Core GPU". Available at: `https://www.nvidia.com/en-us/data-center/b200/` https://www.nvidia.com/en-us/data-center/b200/%60 [9] NVIDIA Networking, "InfiniBand Adapters". Available at: `https://www.nvidia.com/en-us/networking/infiniband-adapters/` https://www.nvidia.com/en-us/networking/infiniband-adapters/%60 [10] Wikipedia, "Data center". Available at: `https://en.wikipedia.org/wiki/Data_center` https://en.wikipedia.org/wiki/Data_center%60 [11] Wikipedia, "Total cost of ownership". Available at: `https://en.wikipedia.org/wiki/Total_cost_of_ownership` https://en.wikipedia.org/wiki/Total_cost_of_ownership%60 [12] NVIDIA公式ブログ「Blackwell InferenceMax Benchmark Results」(NVFP4に言及). Available at: `https://blogs.nvidia.co.jp/blog/blackwell-inferencemax-benchmark-results/` https://blogs.nvidia.co.jp/blog/blackwell-inferencemax-benchmark-results/%60 [13] IBM, "Global AI Adoption Index". Available at: `https://www.ibm.com/watson/resources/ai-adoption-index/` https://www.ibm.com/watson/resources/ai-adoption-index/%60 [14] Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" (2022). Available at: `https://arxiv.org/abs/2205.14135` https://arxiv.org/abs/2205.14135%60 [15] Meta AI. "Meta Llama 3.1" (2024). Available at: `https://ai.meta.com/blog/meta-llama-3-1/` https://ai.meta.com/blog/meta-llama-3-1/%60 [16] Mistral AI. "Mixtral of Experts" Technical Report (2024). Available at: `https://arxiv.org/abs/2401.04088` https://arxiv.org/abs/2401.04088%60 [17] Vaswani et al., "Attention Is All You Need" (2017). Available at: `https://arxiv.org/abs/1706.03762` https://arxiv.org/abs/1706.03762%60 [18] Yahoo Finance, "Oracle denies report on OpenAI data center delays" (2025). Available at: `https://finance.yahoo.com/news/oracle-pushes-back-several-data-161438968.html` https://finance.yahoo.com/news/oracle-pushes-back-several-data-161438968.html%60 [19] Tom's Hardware, "Nvidia buys AI chip startup Groq's assets for $20 billion in the company's biggest deal ever" (2025). Available at: `https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-buys-ai-chip-startup-groqs-assets-for-usd20-billion-in-the-companys-biggest-deal-ever-transaction-includes-acquihires-of-key-groq-employees-including-ceo` https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-buys-ai-chip-startup-groqs-assets-for-usd20-billion-in-the-companys-biggest-deal-ever-transaction-includes-acquihires-of-key-groq-employees-including-ceo%60

次回:【AI半導体を理解する 第2回】NVIDIAの覇権の秘密 — なぜGPUがAIの心臓部になったのか