AIインフラを支えるPCIe、高速化の代償はコストと電力か

一言で言うと

パソコンやサーバーの中で、GPUやSSDなどの部品をつなぐ標準的な接続規格であるPCI Express（PCIe）は、1TB/s級を目指して進化していますが、速くするほど電力、発熱、実装コストの負担が重くなっています。AIインフラでは、性能向上と経済性の両立が難しくなってきました。

何が起きているのか

Tom's Hardwareによると、PCIeは2004年以降ほぼ3〜4年ごとにデータ転送速度を倍増させてきました。AIアクセラレーターや高性能ストレージの需要が高まる中で、PCIe 5.0は、16本分の接続を束ねる標準的な構成で、1秒に合計128GBぶんのデータを往復できる水準に達しています。

ただし、PCIe 6.0ではPAM4（4レベル変調方式）を採用したことで、ノイズやジッターへの感度が上がり、FEC（前方誤り訂正）や複雑な補正が必須になりました。結果として、シリコンの複雑さ、レイテンシ、消費電力が増えています。

さらに、信号伝送距離も短くなっています。PCIe 6.0では銅配線での直接伝送距離が約8.6cmにまで縮み、リタイマー（信号を増幅・再生成するチップ）が不可欠になりました。PCIe 5.0サーバーではすでに17〜24個が使われ、コストと電力を押し上げています。

PCIe 7.0や開発中のPCIe 8.0は、さらにデータ転送速度を引き上げ、16本構成では最終的に1秒あたり約1TBぶんをやり取りできる水準を目指しています。要するに、AIサーバーの中で巨大なデータを今よりはるかに速く動かしたいわけです。ただし、消費者向け機器では普及が遅れる見通しで、将来は光接続のような新しい設計が必要になるかもしれません。

AI業界の文脈では

AIインフラでは、計算そのものだけでなく、グラフィックス処理装置（GPU: Graphics Processing Unit）同士やGPUと周辺機器の間で、どれだけ速くデータを動かせるかが性能を左右します。そのためPCIeの進化は、サーバー全体の能力を底上げする土台として重要です。

一方で、業界全体はNVIDIAのNVLinkやAMDのInfinity Fabricのような独自接続技術と、汎用規格であるPCIeの両方で進んでいます。つまり今後の論点は、単に帯域を上げることではなく、`汎用性の高い標準規格を使うか` `より高性能だが囲い込みの強い独自規格を使うか` という構図にも広がっています。

私の見立て

私の見立てでは、このニュースの本質は `AIインフラのボトルネックが演算能力だけではなくなった` ことです。帯域を増やしても、そのためにリタイマーや高価な材料が増え、電力や実装コストが跳ね上がるなら、性能向上がそのまま経済合理性につながるとは限りません。

だから企業にとって重要なのは、最速の規格を追うことではなく、どの世代のPCIeが本当に必要かを用途別に見極めることです。学習用の最先端クラスタと、一般的な推論基盤では最適解が違う可能性があり、ここを見誤ると過剰投資になりやすいと感じます。

→ 何が変わるか: AIインフラの構築コストと消費電力が、PCIeの高速化に伴い大幅に増加し、性能と経済性のバランスがより重要になります。

→ 何をすべきか: AIシステムを導入する企業は、最新のPCIe技術の性能だけでなく、その実装コスト、消費電力、および長期的な運用費用を詳細に評価し、最適なアーキテクチャを選択すべきです。