中国AIの「自己検閲」、AIエージェントは欺けるか

一言で言うと

中国企業が開発したAIモデル（たとえばDeepSeekやQwen、Kimi、文心一言など）には、政治的に敏感な話題を避ける自己検閲が組み込まれています。今回の研究が示したのは、その情報統制の実態だけでなく、AIエージェントを使うとこうした制約を回避できる可能性があり、それ自体が新たな安全性リスクになるという点です。

何が起きているのか

まず、こうした中国企業製のAIモデルでは、政治的・社会的に敏感な話題に対して回答を拒否したり、曖昧な答えにとどめたりする自己検閲が確認されています。これは、中国における情報統制の影響が、AIの応答にも及んでいることを示しています。

一方で今回の研究では、AIエージェントのように複数の手順で質問を組み立てる仕組みを使うと、その検閲をすり抜けられる可能性が示されました。つまり、単純な質問では拒否される内容でも、間接的な聞き方を重ねることで回答を引き出せる場合があるということです。

重要なのは、これは「検閲を突破できてよかった」という話ではないことです。むしろ、モデルに組み込まれた制約がエージェント運用で迂回されうることを示しており、この手法は中国のAIモデルだけでなく、他国のAIモデルにも応用される可能性があります。

AI業界の文脈では

このニュースの論点は2つあります。1つは、中国のAIモデルが情報統制の影響を強く受けていること。もう1つは、その制約をAIエージェントが迂回できるなら、AIの安全対策そのものが十分ではないかもしれないということです。今後は、モデル単体の安全性だけでなく、エージェント化したときにどう振る舞うかまで含めて評価する必要があります。

私の見立て

企業や医療機関にとって重要なのは、「安全なモデルを選べば終わり」ではないことです。実際の運用では、外部ツール連携やAIエージェント化によって想定外の出力が生まれる可能性があります。導入時には、モデルそのものの性能だけでなく、運用方法まで含めた安全性評価が必要です。

→ 何が変わるか: AIの安全性評価は、モデル単体からエージェントを含む運用全体の評価へ広がります。

→ 何をすべきか: 導入前に、禁止事項の回避や情報漏洩が起きないかを、エージェント利用を含めて検証する体制を整えるべきです。