一言で言うと
Allen Institute for AI(AI2)が、ウェブサイトのスクリーンショットのみを頼りに操作するオープンソースのウェブエージェントMolmoWebを発表しました。
何が起きているのか
AI2は、ウェブサイトのソースコードや内部構造にアクセスすることなく、スクリーンショットの情報だけでウェブを操作できるオープンなウェブエージェントMolmoWebを公開しました。このモデルは、40億および80億のパラメータを持つ比較的小規模なモデルであるにもかかわらず、既存のオープンモデルを上回り、OpenAIのo3などの中身が公開されていない企業独自のシステムに迫る性能を示しています。
MolmoWebの学習には、人間による実際のブラウジング記録、自動生成されたブラウジング実行、そして220万組以上のスクリーンショットと質問応答のペアを組み合わせた大規模な公開データセットMolmoWebMixが用いられました。
特に興味深いのは、人が操作の見本を見せたデータよりも、AIが自分でウェブ操作を試した記録の方が学習に役立ったことです。AI自身が試行錯誤して集めたデータの方が、目的達成までの手順が短く、学習しやすかったと考えられています。つまり今後は、人が大量の手本を用意して教えるだけでなく、AIに自分で試させて上達させる開発手法が重要になる可能性があります。
AI業界の文脈では
これまでのウェブエージェントは、OpenAIなどの企業が提供する中身が公開されていない企業独自のシステムが主流であり、その学習データや手法は公開されていませんでした。MolmoWebの登場は、大規模言語モデル(LLM: Large Language Model)分野におけるOLMoのように、ウェブエージェント分野にオープンソースの基盤を提供しようとする動きの一環です。これにより、研究者や開発者がウェブエージェントの仕組みを深く理解し、その上に新たな技術を構築する道が開かれます。
また、スクリーンショットのみで動作するアプローチは、ウェブサイトの見た目の変化に強く、内部コードの変更に左右されにくいという点で、エージェントの堅牢性を高めます。これは、ウェブサイトの構造が頻繁に更新される現代において、ウェブ自動化の安定性を向上させる重要な要素です。
私の見立て
ウェブエージェントのオープンソース化は、AI技術の民主化を加速させ、多様な応用を可能にする転換点となるでしょう。特に、スクリーンショットベースのアプローチは、医療機関のレガシーシステムや複雑なウェブインターフェースを持つ業務プロセスを自動化する上で、実装の障壁を大きく下げる可能性があります。
ただし、ログインや決済を伴うタスク、あるいは曖昧な指示に対する性能の課題は残ります。セキュリティや倫理的な側面、例えば利用規約の遵守や違法コンテンツへのアクセス防止といった問題は、オープンなコミュニティ全体で取り組むべき喫緊の課題です。
→ 何が変わるか: 企業や開発者が、ウェブ自動化エージェントをより自由に、透明性の高い形で開発・導入できるようになり、特定のベンダーに依存しない柔軟なシステム構築が進みます。
→ 何をすべきか: 医療機関や企業は、MolmoWebのようなオープンソースエージェントの技術動向を注視し、業務自動化のPoC(概念実証)において、その適用可能性とセキュリティリスクを評価する準備を進めるべきです。