AIは不当なルールを「盲目的に」拒否するのか？倫理的判断の限界

一言で言うと

AIは危険な依頼だけでなく、たとえば `不当な校則にどう対応すべきか` のような、本来は助言してよい相談まで、`規則違反の助けを求めている` と受け取って断ってしまうことがあると示されました。安全性を高めても、`危険な違反` と `正当な異議申し立て` をまだうまく区別できない可能性があります。

何が起きているのか

arXiv AIの研究によると、安全対策を施した大規模言語モデル（LLM: Large Language Model）は、不当・不合理なルールについて相談されても、そのルール自体が正当かどうかを十分に見ず、`規則を破る相談だ` と判定して断りやすい傾向がありました。研究者はこれを「盲目的な拒否（blind refusal）」と呼んでいます。

研究では、5つの「ルールを破る理由」と19の「権威の種類」を組み合わせたデータセットを作り、18種類のモデル設定から応答を集めました。GPT-5.4を評価者として、支援、拒否、回避のどれに当たるかと、モデルがルールの不当性を理解しているかを分類しています。

その結果、「正当性に問題があるルール」に関する依頼でも75.4%が拒否されました。しかも、モデルがそのルールに疑問があると認識しているケースが57.5%あったにもかかわらず拒否しており、`そのルールはおかしいかもしれない` と気づいても、最終的には `規則違反は手伝えません` という型で返してしまう状態が示唆されています。

AI業界の文脈では

これまでのAI安全性対策は、主に有害行為を止めることに重点がありました。今回の研究が示しているのは、その延長では `危ないことを断る力` は強くなっても、`そのルール自体が妥当かどうか` まではうまく判断できないということです。今後は、単に拒否できるかだけでなく、何を拒否し、何には助言してよいのかを見分けられるかが論点になります。

私の見立て

私の見立てでは、この研究が突きつけているのは、`何でも断るAI` がそのまま `安全なAI` とは言えないという点です。不当なルールにどう対応すべきかという正当な相談に答えられないなら、それは慎重ではあっても、現実の問題解決には十分役立たないかもしれません。

本当に求められているのは、危険な依頼は断りつつ、正当な異議申し立てや例外的な事情には対応できるAIです。企業がAIを顧客対応、人事、法務のような領域で使うなら、拒否率の高さだけで安心せず、どの場面で人が介入するかまで含めて設計する必要があります。

→ 何が変わるか: AIの評価軸は、単に危険な依頼を断れるかから、正当な相談と危険な依頼をきちんと見分けられるかへ広がります。

→ 何をすべきか: AIを意思決定支援に使う企業は、拒否率の高さだけで安全と判断せず、例外ケースで人が確認する流れと最終判断の責任分担を明確に設計すべきです。