Takeshi Ikemoto

医療 × 経営 × テクノロジー

·夜便 1本目·itmedia.co.jp

AIがPCを自律操作、思考も共有:GPT-5.4が示す未来の働き方

OpenAIAIエージェントAWS未来の働き方医療AIGPT54ComputerUse汎用AIHIPAAAI思考プロセスAmazonConnectHealthPC自律操作

一言で言うと

OpenAIが最新のAIモデル「GPT-5.4」を発表しました。このモデルは、AIがパソコンの操作を直接行えるようになる「Computer Use」機能と、AIの思考プロセスをユーザーがリアルタイムで確認し、介入できる機能が特徴であり、AIが単なる対話ツールから、より自律的な「エージェント」へと進化する重要な一歩を示しています。

何が起きているのか

OpenAIは2026年3月5日、AIモデルの最新版である「GPT-5.4」をリリースしました。このモデルは、大きく分けて「GPT-5.4 Thinking」と「GPT-5.4 Pro」の2つのモードで提供されます。

「GPT-5.4 Thinking」は、AIがタスクを解決する際の思考プロセスを詳細にウェブ上で公開し、ユーザーがその思考の途中で指示を追加したり、修正したりできる点が画期的です。これにより、AIがどのように結論に至ったのかを人間が理解し、より効果的に協調作業を進めることが可能になります。一方、「GPT-5.4 Pro」は、高度な計算リソースを駆使して、複雑なタスクにおいて最高のパフォーマンスを発揮することを目指したモデルです。

主要な新機能として、「Computer Use」が挙げられます。これは、AIエージェントがパソコンの画面を認識し、マウスやキーボードを操作してアプリケーションを動かせるようになる機能です。これにより、AIはウェブブラウザの操作、ソフトウェアの実行、データ入力といった、これまで人間が行っていた様々なデジタルタスクを自律的にこなせるようになります。

また、「Tool Search」機能も導入されました。これは、AIがタスクの実行に必要なツールを自動的に探し出し、呼び出して利用する能力です。さらに、最大100万トークンという非常に長いコンテキストウィンドウ(AIが一度に処理できる情報の量)に対応し、より広範な情報に基づいて複雑な問題を解決できるようになりました。

ベンチマークテストでは、知識推論能力を示すGDPvalで83.0%(GPT-5.2の70.9%から向上)、コーディング能力を示すSWE-Bench Proで57.7%(GPT-5.3-Codexの56.8%から向上)、そしてコンピュータ操作能力を示すOSWorld-Verifiedで75.0%(GPT-5.2の47.3%から大幅向上)と、各分野で高いスコアを記録しています。

API(外部プログラムからAIを利用するためのインターフェース)の料金は、gpt-5.4が入力100万トークンあたり2.50ドル、出力15.00ドル、gpt-5.4-proが入力30.00ドル、出力180.00ドルと設定されています。

安全対策については、OpenAIが公開する「システムカード」(モデルの能力とリスクを説明する公式文書)で、GPT-5.4 Thinkingは「汎用AI」と「サイバーセキュリティ」の分野で「High」リスクに分類されています。これは、このモデルが悪用された場合の影響が大きいと評価されているということです。例えば、高度なコーディング能力はマルウェア作成などに転用される恐れがあり、そのため「High」と位置づけられています。OpenAIはこれに対応し、有害な利用を招くようなユーザーの指示(プロンプト)をブロックするなど、厳格な安全対策を適用していると説明しています。

AI業界の文脈では

今回のGPT-5.4のリリースは、AIが「対話型アシスタント」の段階から「自律型エージェント」へと進化する、業界全体の大きなトレンドを象徴しています。これまでのAIは、人間が明確な指示を与え、その都度介入する必要がありました。しかし、Computer Use機能の登場により、AIは人間が普段パソコンで行うような一連の作業を、より少ない指示で、あるいは自律的に実行できるようになります。

これは、AIが単なる情報生成ツールではなく、現実世界のデジタル環境に直接作用する存在になることを意味します。例えば、ウェブサイトの情報を収集し、そのデータに基づいてスプレッドシートを更新し、さらにその結果をメールで報告するといった、複数のステップからなる複雑な業務プロセス全体をAIが担うことが可能になるでしょう。

また、AIの思考プロセスを可視化し、人間が介入できる機能は、AIの「ブラックボックス」問題に対する重要な解決策として注目されます。AIの判断根拠が不明瞭であるという課題は、特に医療や金融、法務といった高度な専門性と信頼性が求められる分野でのAI導入を阻む要因となっていました。この機能により、AIの透明性が高まり、より多くの分野でのAI活用が加速すると考えられます。

コンテキストウィンドウの拡張は、AIがより大規模なデータセットや長期間にわたる情報を記憶し、一貫性のあるタスクを遂行できる能力を高めます。これは、複雑なプロジェクト管理や、長期的な顧客対応、あるいは膨大な研究論文の分析といった、高度な認知能力を要する業務において、AIの適用範囲を大きく広げるものです。

私の見立て

核心: GPT-5.4は、AIが単なる対話ツールから、自律的にタスクを遂行する「エージェント」へと進化する明確な一歩を示しています。

Computer Use機能は、AIが人間の指示を解釈し、PC上のアプリケーションやインターフェースを直接操作する能力を意味します。これは、これまで人間が介在していた定型業務や複雑なワークフローをAIがエンドツーエンドで自動化できる可能性を開きます。例えば、医療現場での電子カルテ入力、経営におけるデータ分析ツールの操作、ソフトウェア開発におけるテスト実行などが、AIによって自律的に行われるようになるでしょう。

GPT-5.4 Thinkingモデルにおける思考プロセスの可視化とユーザーによる途中介入機能は、AIの「ブラックボックス」問題に対する重要なアプローチです。AIがどのように判断を下しているかを人間が理解し、必要に応じて修正できることで、AIの信頼性と透明性が向上します。これは、特に医療診断支援や経営戦略立案など、誤りが許されない分野でのAI導入を加速させる上で不可欠な要素です。

コンテキストウィンドウの劇的な拡張は、AIがより長期間にわたる複雑な情報を記憶し、一貫性のあるタスクを遂行できることを意味します。これにより、複数のアプリケーションを横断するプロジェクト管理や、長期的なデータ分析、あるいは患者の複雑な病歴全体を考慮した医療計画の立案など、高度な認知能力を要する業務へのAI適用が現実的になります。

→ 何が変わるか: AIは単なるアシスタントではなく、PC上のあらゆる業務を自律的に遂行し、人間の思考プロセスに介入できる「デジタル同僚」へと変貌します。

→ 何をすべきか: 企業は、AIエージェントによる業務自動化の可能性を早期に評価し、既存のワークフローをAIフレンドリーな形に再設計する準備を始めるべきです。同時に、AIの思考プロセスを理解し、適切に介入できる人材の育成が急務となります。