機密データでAI訓練、国防総省の計画に潜むリスク

一言で言うと

米国防総省（The Pentagon）が、AI企業による機密データを用いた大規模言語モデル（LLM: Large Language Model）の訓練を可能にする方向を検討しており、その情報漏洩リスクが大きな懸念となっています。

何が起きているのか

米国防総省は、生成AI（Generative AI）企業が軍事用途に特化したAIモデルを、機密データを用いて訓練できるセキュアな環境を構築する計画を進めていると報じられました。

ここで重要なのは、「機密データをAIに見せて質問に答えさせること」と、「機密データそのものでAIを学習させること」は別だという点です。LLMは、もともと大量の文章から「次に来そうな単語」を予測する形で学習します。

つまり、学習に使ったデータは、モデルの答え方そのものを形作ります。前者が必要なときだけ機密情報を参照して答える形なのに対し、後者は機密情報を材料にしてモデル自体の癖や判断のしかたを変えるため、影響がより深く残ります。

これは、機密情報をモデルの外に置いたまま必要時に参照するRAG型の運用とは違い、機密情報の影響がモデルの中にまで入り込む、ということです。

では、なぜそこまで踏み込むのか。理由は、国防総省が欲しいのが単なる「資料検索が上手いAI」ではなく、軍事特有の文脈、判断基準、言い回し、パターン認識まで身につけたモデルだからです。

RAGは必要な情報をその場で引くには向いていますが、機密データに含まれる判断の癖や現場知識そのものをモデルに染み込ませる力は弱く、複雑な分析や継続的な推論では限界が出やすい、という判断があると考えられます。

現在も、AnthropicのClaudeのようなAIモデルは、機密情報を扱える閉じた環境の中で質問応答に使われていますが、それは機密データを参照して答えさせる段階にとどまっています。今回報じられたのは、そこからさらに進んで、機密データそのものでモデル自体を学習させる可能性です。

監視報告書や戦場評価のような機密情報を学習に使えば、その領域では答えの精度や有効性が上がる可能性があります。国防総省はそこに期待しており、OpenAIやElon Musk氏のxAIなどとの協力も進められています。

訓練は、機密政府プロジェクトを扱える認定済みのセキュアなデータセンターで行われる予定です。国防総省がデータの所有権は維持するものの、AI企業の担当者が適切なセキュリティクリアランスを持つ場合には、データにアクセスする可能性もあるとされています。

この計画における最大の懸念は、学習に使った機密情報が、あとでモデルの回答に混ざって出てしまうことです。ここで問題なのは、「そのモデルを使う人はみな機密に触れられる人なのではないか」という単純な話ではないことです。実際には、同じ組織の中でも、見てよい情報の範囲は部署や任務ごとに違います。たとえば、軍内部の別部署が質問したときに、機密性の高い人間情報（HUMINT）の一部を答えとして返してしまえば、それは漏洩になります。

AI業界の文脈では

大規模言語モデル（LLM: Large Language Model）の性能向上には、高品質かつ大量のデータによる訓練が不可欠であり、機密性の高い専門データへのアクセスは、特定のドメインにおけるAIの能力を飛躍的に高めます。

ただし、学習段階で使ったデータは、推論段階の答えに間接的な形で影響します。モデルは元データを丸ごと保管して検索するとは限りませんが、学習の結果として、特定の情報を前提に答えやすくなります。そのため、質問のされ方によっては、学習に使った情報の一部が答えににじむように出るおそれがあります。しかも、いったん学習に使った情報は、あとから完全に切り離すのが簡単ではありません。

軍事分野では、この問題がそのまま国家安全保障の問題になります。加えて、学習作業を担当するエンジニアにしても、「機密に触れられる」ことと「すべての機密を見てよい」ことは同じではありません。だからこそ、どのデータを学習に使うのか、誰がどこまで見られるのか、完成したモデルを誰がどの用途で使えるのかを、通常の企業利用以上に厳しく管理する必要があります。

私の見立て

機密データを用いたAIモデルの訓練は、その性能を劇的に向上させる可能性を秘める一方で、情報漏洩という国家安全保障上の重大なリスクを伴うため、厳格なデータガバナンスと技術的対策が不可欠です。

医療分野でも、患者の個人情報や医療記録を学習に使うときは同じ問題が起こりえます。診療データで学習したモデルが、別の患者への回答や提案の中で、元データに強く引っ張られた内容を返すかもしれません。また、学習や運用を担当する人が、業務上必要な範囲を超えてデータに触れてしまうリスクもあります。だから、匿名化、差分プライバシー、つまり個々の患者情報がそのまま特定されにくいよう少しずつ統計的なノイズを加えて守る手法、アクセス制御といった対策を組み合わせる必要があります。

AIビルダーとしては、特定の情報をあとからモデルから外せるか、出力に機密情報がにじんでいないか、用途ごとにモデルを分けるべきか、学習担当者が見られる範囲をどこまで絞るか、といった点まで最初から設計に入れる必要があります。

→ 何が変わるか: 機密データを学習に使うことで、その分野に強いAIは作りやすくなりますが、同時に「学習に使った情報があとで答えに混ざらないか」という管理が、導入の中心課題になります。

→ 何をすべきか: 企業や政府機関は、機密データをAIに見せるだけなのか、学習にも使うのかをまず分けて考えたうえで、学習に使うなら出力漏洩の点検、権限管理、用途ごとのモデル分離まで含めて設計する必要があります。