LLMはなぜビデオゲームで伸び悩むのか

一言で言うと

LLMはコーディングでは急速に性能を伸ばしていますが、ビデオゲームをうまくプレイする課題では、依然として人間のような振る舞いに至っていません。IEEE Spectrumの記事は、この差が偶然ではなく、タスク構造の違いから生じていることを整理しています。

何が起きているのか

LLMの性能評価で使われるベンチマークは、モデルの改善に合わせて、より複雑で実務に近い課題へと広がっています。コーディングの分野でも、HumanEvalのような短いコード生成の評価に加えて、SWE-benchのように既存コードベースを読んで修正する課題が重視されるようになり、モデルはそうした難しい課題にも対応しつつあります。

一方、ビデオゲームでのLLMの性能は同じペースでは伸びていません。その理由として、記事は次の構造的な差異を指摘しています。

まず、コードには「テストが通るかどうか」という比較的明確な正解があります。人間が書いたコードや評価データも大量に蓄積されています。これに対し、ゲームはタイトルごとにルールも報酬も異なり、何をもって「うまくプレイした」とみなすかが揃いません。そのため、汎用的なゲーム能力を学ばせにくい構造になっています。

加えて、ゲームに関する高品質な学習データはコードほど豊富ではありません。人間がゲームをプレイした記録は、コードのようにインターネット上に大量に残っているわけではなく、データ量の非対称性も性能の差に影響しています。

さらに、ゲームでは、画面を見ただけでは分からない情報や、刻々と変わる状況に合わせて判断し続ける必要があります。LLMは文章や与えられた情報をもとに次の答えを返すことは得意ですが、このように見えない情報を推測しながらリアルタイムで動き続ける課題は、もともと得意な領域とは少し異なります。

AI業界の文脈では

「LLMは何でもできる」という空気は、特に2025年後半からの性能向上によって広がっています。しかし今回の整理が示すのは、性能向上は一様ではなく、タスクの構造によって進みやすい領域とそうでない領域があるということです。

コーディングで強いのは、学習データが豊富で、正解が比較的明確で、評価も再現しやすいからです。ゲームで伸び悩むのは、それらの条件が揃いにくいからです。同じ論理は、医療のように正解が文脈依存で評価が揃いにくい領域にも当てはまります。`LLMはここまで進化した` という情報を見るときは、`どんなタスクで伸びているのか` まで確認することが、過大評価を避けるうえで重要です。

私の見立て

AIの能力を評価するとき、`全体として進化している` とひとまとめに捉えるだけでは、判断を誤りやすくなります。進化の速さはタスクの特性と切り離せないため、`自分たちが解きたい課題は、LLMが得意な構造に近いのか` を見極めることが実務では重要です。

医療のように、正解が複合的で文脈依存で評価が難しいタスクでは、コーディングのような急速な改善をそのまま期待するのは根拠が薄い、という見方が今回の記事から引き出せます。どこにAIを入れ、どこは慎重に扱うかを判断するには、ベンチマーク数値だけでなく、タスク構造の違いへの理解が必要です。

→ 何が変わるか: LLMの汎用性への期待は、タスクごとの適性評価へと分化していきます。「AIが得意なこと」の解像度を上げることが、過剰投資と過小投資の両方を防ぐ前提になります。

→ 何をすべきか: 自社のAI導入を検討する際は、「このタスクは学習データが豊富か」「正解が明確で再現可能か」「評価軸が均一か」の3点を起点に適性を評価することが、現実的な判断基準になります。