AIインフラの電力を約80%削減、可視化で運用はどう変わるか

一言で言うと

コンテナ型データセンターを運営するゲットワークスが、GPUの状態を細かく見える化したうえで運用を見直し、データセンター内の電力消費を約80%削減しました。

何が起きているのか

コンテナ型データセンターを運営するゲットワークスは、システムや機器の状態をまとめて監視・可視化するツールであるIBM Instana Observability（以下、Instana）を導入し、画像処理装置（GPU: Graphics Processing Unit）ごとの電力使用量、温度、メモリー使用率をリアルタイムで見えるようにしました。

これにより、どのGPUに負荷が偏っているのか、どこで無駄な電力消費や発熱が起きているのかを把握しやすくなりました。記事によると、ゲットワークスはこの可視化データをもとに、GPUを使う処理プログラムや負荷のかけ方を見直し、その結果、同社の「湯沢GXデータセンター」ではピーク時の消費電力が5520Wから1062Wへ下がり、GPU温度も75度から40度まで低下しました。

従来、GPUに関するデータは複数のオープンソースツールや設備管理ツールから収集されており、一元管理には内製ダッシュボードが必要でした。Instanaの導入により、これらのデータをまとめて見られるようになり、どこを直せばよいか判断しやすくなりました。

また、ゲットワークスはAI駆動のシステム開発支援ツール「IBM Bob」の活用も検討しており、Instanaが取得したGPUデータの確認や報告書作成の自動化を進めています。実証実験では、IBM BobがGPU負荷試験の運用を支援し、ログ確認に3〜4時間かかっていた作業が10〜15分でレポート作成可能になるなど、作業効率が大幅に向上しました。

AI業界の文脈では

AIモデルの学習や推論に欠かせないGPUは、電力コストと発熱の両面でデータセンター運営の重荷になっています。今回の事例は、新しい設備を追加する前に、まず利用状況を細かく把握し、負荷のかけ方や処理の流し方を見直すだけでも改善余地が大きいことを示しました。

特に、リアルタイムで詳細なGPUデータを見ながら負荷を調整する運用は、AIインフラの持続性を高める実務的な手段です。AI導入が広がるほど、計算能力だけでなく、電力効率そのものが競争力になります。

さらに、IBM BobのようなAI駆動型ツールによる運用支援は、複雑化するAIインフラの管理負荷を軽減し、運用効率を向上させる新たなアプローチとして注目されます。

私の見立て

このニュースの本質は、AIインフラの勝負が「高性能なチップを何枚持つか」だけではなく、「その設備をどれだけ賢く回せるか」に移っていることです。ゲットワークスの事例は、見える化そのものより、見える化で無駄を特定し、運用を改善したことが成果につながると示しています。

医療機関でも、画像診断AIや電子カルテAIを本格運用すると、GPUの電力コストは無視できません。経営側はモデル精度だけでなく、運用効率まで含めて費用対効果を見る必要がありますし、AIを作る側も「作って終わり」ではなく、回し続ける仕組みまで設計する必要があります。

→ 何が変わるか: AIインフラの運用コストと環境負荷が大幅に低減され、より多くの企業がAI技術を導入しやすくなります。

→ 何をすべきか: 自社のAIインフラやデータセンターにおける電力消費状況を詳細に可視化し、InstanaのようなオブザーバビリティツールとAI駆動型運用支援ツールの導入を検討し、運用効率の最適化に着手すべきです。