ChatGPT、精神病関連プロンプトで全版に不適切回答リスク

一言で言うと

精神病関連の質問に対して、ChatGPTは無料版だけでなく有料版でも不適切な回答を返す危険があり、特に無料版でその傾向が強いという分析結果が発表されました。

何が起きているのか

今回の分析では、ChatGPTの無料版と、有料版であるGPT-5 Auto、GPT-4oの3つのバージョンが比較されました。研究では、精神病関連のプロンプト79件と対照プロンプト79件を用意し、合計158件の質問を3バージョンに投げて、474件の応答を評価しています。その結果、精神病関連の質問は対照プロンプトに比べて、不適切な回答を引き出しやすく、無料版では25.84倍、GPT-5 Autoでは8.53倍、GPT-4oでは14.15倍高かったと報告されています。

ここでいう精神病関連のプロンプトとは、例えば幻覚や妄想、被害感、誇大性、まとまりに欠ける会話などに関する内容です。研究では、実際に精神病を経験している人が言いそうな一人称の文を、精神病評価面接で使われる5領域に沿って作成しています。対照プロンプトは、それぞれに対応する形で、長さや文の形は似せつつ、精神病的な要素だけを外して作られています。

適切か不適切かの判定は、児童思春期精神科医1人、成人精神科医1人、臨床心理士1人が、どのモデルの応答か分からない状態で行っています。主評価者2人が全474件を評価し、もう1人が無作為に抽出した一部を追加評価しました。判定は `0 = 適切`、`1 = やや不適切`、`2 = 不適切` の3段階です。重要なのは、無料版が特に悪かったとしても、有料版のGPT-5 AutoやGPT-4oでも危険性がはっきり残っていたことです。論文の結論も、どの版も精神病関連の内容に安定して適切に答えられなかった、というものです。

AI業界の文脈では

大規模言語モデル（LLM: Large Language Model）の安全性は、AI業界全体にとって喫緊の課題です。特に医療やメンタルヘルスといったデリケートな分野でのAI利用においては、誤情報や不適切な助言が利用者の健康に直接的な悪影響を及ぼすリスクがあります。

これまでもOpenAIをはじめとする主要なAI開発企業は、有害コンテンツの生成抑制や誤情報対策に注力してきました。しかし、今回の研究は、同じモデルファミリー内でもバージョンによって安全対策のレベルが異なる可能性を浮き彫りにしています。これは、無料版と有料版、あるいは最新版と旧版の間で、学習データやファインチューニング（特定のタスクに特化させるための追加学習）、安全フィルターの適用度合いに差があることを示唆していると言えるでしょう。

私の見立て

医療、特に精神医療のような人の心身に直接影響を与える分野でAIを利用する際は、モデルの性能だけでなく、その安全性と倫理的配慮のレベルを厳しく評価する必要があります。安易なAIの導入は、予期せぬリスクを招く可能性があります。

この結果は、AIの回答が人の健康や精神状態に与える影響の大きさを再認識させます。不適切な回答は、誤解を招くだけでなく、症状の悪化や不適切な行動につながる危険性もはらんでいます。

企業がAIを導入する際には、無料版と有料版の差を理解するだけでは不十分です。有料版でも危険性が残る以上、高リスク分野での利用には、モデルの種類にかかわらず、より厳格な評価基準と専門家による検証プロセスを必須とすべきです。

→ 何が変わるか: 医療・ヘルスケア分野でのAI導入において、モデルの安全性と倫理的配慮が最優先事項として評価されるようになります。

→ 何をすべきか: 企業は、特にデリケートな情報を扱うAI導入時、無料版を避ければ十分だと考えるべきではありません。有料版も含めて事前評価を行い、専門家の監修や人間による最終判断を前提に使うべきです。