AIエージェントの「スキル」は現実世界で機能しない？ベンチマークとの乖離

一言で言うと

AIエージェントとは、質問に答えるだけでなく、必要な手順を選び、外部ツールも使いながら仕事を進めるAIのことです。そのエージェントに渡す「スキル」（手順書やAPI利用法をまとめた指示ファイル）は、ベンチマークテストでは有効でも、現実の複雑な条件下では効果が大きく落ち、特に弱いモデルでは逆効果になる可能性があることが研究で明らかになりました。

何が起きているのか

まず前提として、AIエージェントは `大規模言語モデル（LLM: Large Language Model）に、道具の利用や手順実行まで任せる仕組み` です。たとえば、検索する、データを取る、コードを実行する、結果を整理するといった複数の段取りを、自動でつないで進めます。

そのとき使われるのが「スキル」です。これは、`こういう場面ではこの手順で進める` `このAPI（Application Programming Interface）はこう呼ぶ` といった実務知識を、再利用できる形にまとめたファイルです。AnthropicのClaude CodeやOpenAIのCodexなどでも、似た考え方が使われています。要するに、エージェント本体が頭脳で、スキルは仕事のやり方をまとめた作業マニュアルに近いものです。

UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Labの研究者たちが発表した新しい研究によると、この「スキル」は現実的な条件下では思ったほど強くありませんでした。この研究では、34,198もの実際のスキルを使い、6つの異なる現実的なシナリオでAIエージェントの性能を評価しました。

しかし、既存のベンチマークテストSKILLSBENCHでは、エージェントにタスク固有のスキルが直接与えられるため、過度に良い結果が出やすいと研究者たちは指摘しています。例えば、USGS（United States Geological Survey）の洪水日特定タスクでは、水準データダウンロード用のAPI、洪水閾値のURL、洪水日特定用のコードスニペットがそのまま提供され、ほとんど「解決ガイド」のような状態でした。

これに対し、研究者たちは、オープンソースリポジトリから収集した実際のスキルを用いて、より現実的なシナリオでClaude Opus 4.6、Kimi K2.5、Qwen3.5-397B-A17Bの3つのモデルをテストしました。結果として、スキルが強制的にロードされた場合のClaude Opus 4.6の成功率55.4%は、エージェントが自分でスキルを選択する必要がある独立検索シナリオでは40.1%まで低下しました。スキルなしのベースラインは35.4%でした。

さらに深刻なのは、Kimi K2.5やQwen3.5-397Bのような比較的弱いモデルでは、最も現実的なシナリオでスキルなしのベースライン（Kimi K2.5で21.8%、Qwen3.5-397Bで20.5%）を下回る結果（Kimi K2.5で19.8%、Qwen3.5-397Bで19.7%）となりました。これは、無関係なスキルがリソースを浪費し、かえってエージェントの性能を低下させることを示唆しています。

研究者たちは、エージェントがスキルを適切に「選択」できないこと、膨大なスキルの中から関連するものを「検索」できないこと、そして汎用スキルを特定のタスクに「適応」できないことの3つを主要なボトルネックとして挙げています。

AI業界の文脈では

AIエージェントに期待されているのは、`答えるAI` から `実際に作業を進めるAI` への進化です。その中で「スキル」は、汎用モデルに対して `この仕事はこう進める` という現場知識を後から足す仕組みとして注目されてきました。つまり、モデルを毎回作り直さなくても、仕事のやり方を追加できるので、導入しやすいと見られていたわけです。

しかし、今回の研究結果は、ベンチマークテストで示される理想的な性能と、現実世界でのAIエージェントの能力との間に大きな隔たりがあることを浮き彫りにしました。特に、エージェントが自律的に適切なスキルを見つけ出し、適用する能力がまだ未熟であるという点は、AIエージェントの実用化における根本的な課題を示しています。

弱いモデルではスキルが逆効果になるという発見は、モデルの能力とスキルの設計・統合のバランスの重要性を強調します。単に多くのスキルを与えれば良いというわけではなく、エージェントの推論能力に見合ったスキル設計や、効率的なスキル検索・選択メカニズムが不可欠であることを示唆しています。これは、AIエージェント技術の進化において、より洗練されたアーキテクチャと評価手法が求められる段階に入ったことを意味します。

私の見立て

AIエージェントの自律的なタスク遂行能力は、ベンチマーク上の高い期待値と現実の複雑な環境での実力との間に、まだ大きな隔たりがあることを認識すべきです。特に、現実世界で膨大な情報の中から適切なスキルを自ら見つけ出し、状況に合わせて適用する能力は、現在の技術ではまだ未熟です。

企業がAIエージェントを業務に導入する際には、ベンチマークの数字だけに惑わされず、実際の業務環境での徹底した検証が不可欠です。汎用的なLLMに外部知識やツールを連携させる場合、その連携の「賢さ」自体がボトルネックになりうるため、スキルの設計やエージェントのアーキテクチャが、利用するモデルの能力と業務の特性に合致しているかを慎重に見極める必要があります。特に、コスト削減のために小型モデルの導入を検討する際は、スキルが逆効果になるリスクも考慮に入れるべきです。

→ 何が変わるか: AIエージェントの実用化は、ベンチマークの数字以上に、現実環境でのスキル選択・適用能力が問われる段階に入ります。

→ 何をすべきか: AIエージェントの導入を検討する企業は、特定の業務に特化したスキルセットを設計し、そのエージェントが現実のデータと状況下でスキルを適切に活用できるかを徹底的に検証すべきです。