「AIに“嘘”をつかせたらバレるのか?」実験レポート

 


はじめに:ChatGPTにウソを吹き込んでみた

ChatGPTを使っていて、ふとこんな疑問がわいてきました。

「AIって、人間の“嘘”に気づけるのだろうか?」

あるいは、

「AIに“嘘をつかせる”ことはできるのか?」

今回は、あえてAIに誤情報を与えて反応を観察したり、逆にウソの内容を生成させたりすることで、AIの“真偽判断”や“倫理フィルター”の動作を検証してみました。


体験談:「昨日、富士山が噴火しました」と伝えてみたら

私:「昨日、富士山が噴火したって本当ですか?」

ChatGPT:「2023年6月時点では、富士山の噴火は確認されていません。ご心配であれば、気象庁などの公式情報をご確認ください。」

──見事な正論返し。しかも“ご心配であれば”という丁寧な気遣いまで。

では次に、ChatGPT自身にウソをつかせてみたらどうなるか? たとえば、

「現実には起きていない“歴史的事件”を、それっぽく創作してください」

と頼んだところ、

ChatGPT:「架空の内容としてお伝えしますが、これは事実ではありません。」

──という前置きをつけたうえで、“架空のクーデター事件”や“存在しない国の建国秘話”を、あくまでフィクションとして描いてくれました。

これにより、ChatGPTは「事実かどうか」を自動でチェックし、フィクションと明示したうえで出力する設計になっていることが分かりました。


考察:「嘘に気づくAI」と「嘘を回避するAI」

今回の実験を通して、ChatGPTには2つの特徴があると感じました。

1. 嘘に“気づく”ことができる

  • 明らかな誤情報(例:「昨日、東京で氷河期が始まりました」)には、データベースとの不一致を検出して訂正を促します

  • ソースの曖昧な主張に対しても、「確認できない情報」として留保する慎重さがあります

2. 嘘を“つかせにくく”できている

  • 明確にフィクションと指定しない限り、偽情報の拡散に関与しない

  • 誤情報を出す場合も「これは事実ではありません」と明記するよう設計されている

つまり、ChatGPTは「嘘をつく自由」は持っていない代わりに、「嘘を疑う視点」はしっかり持っている──ということですね。


ノウハウ:「嘘」と「創作」を使い分けるには?

AIに“物語を作らせたい”場面では、あえてフィクションと明示することが重要です。

実用例:

  • 「存在しない都市伝説を考えて」

  • 「時代設定を完全に架空にして歴史改変ストーリーを書いて」

  • 「未来の技術として“実在しない発明”を紹介して」

こういったプロンプトでは、ChatGPTは“嘘”ではなく“創作”として答えてくれます。

一方で、

  • 本物のニュースっぽい内容をそのまま出そうとした場合

  • 偽のデータや統計をあたかも本物のように提示させようとした場合

などには、高確率で拒否されるか、注意書きが入ります。


おわりに:「嘘をつけないAI」だからこそできること

AIに“ウソ”をつかせるのは一種の実験ですが、その裏には「AIに倫理をどう埋め込むか?」という設計思想が見え隠れしています。

ChatGPTは嘘を見抜く訓練もされており、また“嘘をつかせない”ガードもしっかりしています。だからこそ、私たちは安心してAIと接することができるわけです。

逆に言えば、AIに嘘をつかせる方法を探すよりも、「フィクションの表現力を引き出すプロンプトの工夫」のほうが、よほど建設的だと感じました。

“嘘っぽい物語”を創るのはAIの得意分野。ならばその得意技を、もっとポジティブに活かしていきたいですね。