一言で言うと
Metaの研究チームは、大規模言語モデル(LLM)の学習用テキストデータが枯渇しつつある中で、未ラベルの動画データが次なる大規模な学習フロンティアとなり、単一のマルチモーダルAIモデルで言語・画像・動画を同時に学習できる可能性を示しました。
何が起きているのか
Meta FAIRとニューヨーク大学の研究チームは、マルチモーダルAIモデルをゼロから学習する方法について体系的な調査を実施し、その結果を論文「Beyond Language Modeling」で発表しました。この研究は、大規模言語モデル(LLM: Large Language Model)の性能向上を支えてきた高品質なテキストデータが有限であり、枯渇しつつあるという現状認識から出発しています。研究チームは、テキストだけでは現実世界の情報がかなり削られてしまうため、LLMは「言葉で説明された世界」は学べても、物体の動きや空間の変化、因果関係そのものを直接学んでいるわけではない、と指摘しています。
研究では、単一のモデルを完全にゼロから学習させました。言語には標準的な単語予測を、視覚データにはフローマッチングと呼ばれる拡散法を適用し、テキスト、動画、画像-テキストペア、行動関連動画といった多様なデータで学習を行いました。既存のLLMの上に構築するのではなく、純粋なマルチモーダル学習の効果を検証することを目指しました。
主な発見は以下の通りです。 1. 画像を理解する仕組みと作る仕組みを、分けなくてもよい可能性: 従来は、画像の内容を読み取る処理と、画像を生成する処理に別々の仕組みを使うことが多くありました。今回の研究では、SigLIP 2を土台にした表現オートエンコーダー(RAE: Representation Autoencoder、画像をAIが扱いやすい特徴に圧縮し、必要なら再び画像に戻せる仕組み)を使うことで、1つの仕組みで画像理解と画像生成の両方をうまく扱える可能性が示されました。しかも、未ラベル動画を学習に加えても、言語能力は落ちませんでした。 2. 動画から、世界の動き方を学べる可能性: 研究チームは、特別に「世界モデル」を教え込まなくても、画像や動画をまぜて学習させるだけで、モデルが物の動きや場面のつながりをある程度つかめることを示しました。例えば、自然言語の指示に従って、学習時に見たことのない画像の変化シーケンスを作れたことは、モデルが単に絵を作っているだけでなく、場面の変化をある程度理解している可能性を示します。 3. 計算を節約しながら大きなモデルを動かせる設計が有効: ここで使われたMixture-of-Experts(MoE)は、毎回モデル全体を動かすのではなく、その入力に必要な一部だけを使う設計です。これにより、計算コストを抑えつつ大きなモデルを扱えます。今回の研究では、この方法が通常の密なモデルより効率よく働き、しかも言語には言語向きの部分、画像には画像向きの部分が自然に分かれていくことも示されました。 4. 言語と画像では、必要なデータ量の増え方が違う: 言語能力は、モデルの大きさとデータ量のバランスで伸びていきますが、視覚能力はそれ以上に大量の画像・動画データを必要とすることが分かりました。つまり、モデルを大きくするほど、言語データ以上に視覚データの確保が重要になります。研究では、MoEを使うとこの偏りをある程度やわらげられることも示されています。
研究者たちは、この成果により、未ラベル動画を言語性能を損なわずにマルチモーダル学習へ組み込める可能性が示されたと結論付けています。
AI業界の文脈では
この研究の業界的な意味は、モデル性能の競争が「アルゴリズムの工夫」だけでなく、「どの種類のデータをどれだけ確保できるか」に強く左右される段階に入っていることを示した点にあります。今後は、高品質テキストの奪い合いに加え、未ラベル動画を大量に保有・処理できる企業が有利になる可能性があります。
また、MoE(Mixture-of-Experts)を使うと、視覚と言語で必要な計算資源の偏りをやわらげられる可能性があることも重要です。つまり今後は、モデルを大きくするだけでなく、言語と画像・動画のどちらにどれだけデータと計算資源を振り向けるかを、セットで設計する必要があるということです。
私の見立て
私が重要だと思うのは、医療現場にはすでに内視鏡、手術、超音波など、ラベル付けされていない動画が大量に蓄積されていることです。これまでは「注釈がないから学習に使いにくい」と見なされがちでしたが、今回の方向性が進めば、そうした未整理データの価値が見直されます。
医療AIの現場では、テキストだけで高性能モデルを作るには限界があります。今後は、診療記録だけでなく動画アーカイブをどう安全に保管し、匿名化し、研究や学習に回せる形へ整えるかが競争力になります。医療機関にとって動画は、単なる記録ではなく、将来のモデル性能を左右する資産になっていくはずです。
→ 何が変わるか: AIモデルの学習データ競争は、高品質テキストの争奪戦から、未ラベル動画の大量保有・処理能力の争いへとシフトしていきます。医療分野では、ラベルなし動画アーカイブが「眠った資産」から「競争力の源泉」へと位置づけが変わります。
→ 何をすべきか: 院内の動画データ(内視鏡・手術・超音波等)の保管体制と匿名化プロセスを今から整備しておくべきです。データを使える状態にしておくこと自体が、将来の医療AI開発における参入条件になります。