AIに騙されかけた話。ハルシネーションを実例で見せる

Career

AIハルシネーションといえば「存在しない論文を引用する」「架空の人物を事実のように語る」、そういうイメージがある。

でも、僕がやられたのは別のパターンだった。

一言で言うと、AIは「もっともらしい嘘」をつく。事実誤認だけじゃなく、分類の構造も、書き手の体験まで捏造する。気づかず公開したら読者に「正しそうな間違い」を届けることになる。

この記事では、2つの実例をそのまま全部見せながら、ハルシネーションを見破る4つの視点を整理する。

なお、この記事は「見破る視点」に絞っている。プロンプトの工夫やRAGでハルシネーションを減らす方法もあるが、それは別記事で扱う。まずは「出てきた出力を疑う目」の話から。

実例1|AIに投資先の整理を頼んだら、勝手に10種類で並べてきた

結論: AIは「ありそうな分類」を集めて並べるだけ。軸が揃っているかどうかまでは気にしない。

このブログの「投資先って何があるの?」という記事を書くとき、AIに「投資先を整理して」と頼んだ。種類数の指定なし、軸の指定なし。それだけ。

そしたら10種類が出てきた。

#AIが出した分類
1投資信託(インデックス型)
2ETF
3個別株(日本・米国)
4高配当株
5債券
6REIT
7金(コモディティ)
8暗号資産
9FX
10不動産(実物)

最初の感想は「プロっぽいな」だった。投資の記事でよく見る単語が並んでいて、そのまま使おうとした。

でもなんか引っかかる。眺めてたら分かってきた。分類の軸が3つ混在してる。「何に投資するか(資産クラス)」「どんな形で持つか(保有形態)」「どんな戦略か(運用スタイル)」が一緒くたになっている。

AIの出し方何がおかしい本来は
投資信託(インデックス型)アクティブ型は? インデックスに絞るのは恣意的「投資信託」だけで括る
個別株(日本・米国)欧州・新興国は? 地域を絞る根拠がない「個別株」だけで括る
高配当株個別株の「スタイル」。独立したカテゴリではない個別株に統合、スタイルは別軸で扱う
REIT投資信託・ETFの一形態(保有形態の粒度がブレている)「不動産」の配下に置く
金(コモディティ)コモディティが上位概念。金は代表例のひとつ「コモディティ」で括り、金は代表例

「高配当株」は「株式」の中のスタイル。「REIT」は「不動産」のサブカテゴリ。それぞれが正しい言葉でも、同じ粒度で並べると分類として機能しない。

分類軸を「資産クラス(何に投資するか)」に統一したら、10種類が6つにスッキリまとまった。

#資産クラス一行で言うと
1株式企業の所有権を買う
2債券国・企業にお金を貸す
3不動産物件・不動産ファンド
4コモディティ金・銀・原油などの実物資産
5暗号資産デジタル資産
6通貨(FX)為替差益狙い

AIが出した10種類は、個々の情報としては正しい。でも「分類として機能する構造」になっていなかった。これがハルシネーションの厄介なところで、「それっぽさ」の罠は気づきにくい。

この修正後の「6資産クラス」はブログ記事として公開済み。あのまま使っていたら、軸バラバラの記事が世に出ていた。背筋が冷える。

投資先って何があるの?会社員が知っておきたい6つの資産クラス、まとめて整理する

実例2|AIが僕の体験を勝手に拡張していた

結論: AIは「ありそうな体験談」を補完してくる。提供した情報と一致する保証はゼロ。

ブログの体験談を書くとき、AIには雑な口語で伝えることが多い。そこから文章を整えてもらおうとしてた。

それがまずかった。

AIは提供した情報を「起点」にして、存在しない心情や描写を勝手に付け足してくる

元情報(僕が提供した情報)AIの捏造何が問題か
「半年悩んでた」「最初は『辞めて大丈夫か』と毎晩眠れない夜を過ごした」心情描写を勝手に作っている
「即効性ある」「最初の1〜2週間は何も感じなかった」元情報と矛盾する補足を追加している
「散歩は意識的にマインドフル」「最初は『やることないな』と退屈に感じた」あるある描写を一人称で創作している

「半年悩んでた」は事実。でも「毎晩眠れない夜」は僕が言ってない。AIが「半年悩んでたならそういう心情があったはずや」と勝手に補完している。

「即効性ある」と言ったのに「最初の1〜2週間は何も感じなかった」と書いてくる。矛盾してる。

「散歩は意識的にマインドフル」と伝えただけなのに、「最初は退屈に感じた」という心情を一人称で創作してくる。

お前、また勝手に盛ったやろ、という感じ。

どれも「こういうエピソードありそうやな」という出力になっている。でも実際に僕がそう感じたかどうかは別の話。自分の体験や考えをAIに文章化させる場面(メール・日記・SNS・記事・プレゼン原稿)なら、誰にでも起きる話だ。

ハルシネーションは3パターンに分けて捉えると見破りやすい

結論: 学術的には2分類が主流。でも実際にAIを使ってみると、3パターンで捉える方が見破りやすい。

学術論文の世界だとハルシネーションは「ソースと矛盾するか(Intrinsic)/ソースにない情報か(Extrinsic)」の軸で2分類されるのが主流で、「事実性(Factuality)/忠実性(Faithfulness)」という別の切り口もある。

ただ、実際にやられたパターンを整理すると、3つに分けて捉える方が見破りやすかった。

種類概要実例
① 事実誤認型存在しない事実・人物・論文を作る架空の研究を「〇〇大学の研究によると」と引用
② 構造的破綻型粒度バラバラ・MECE崩れ・軸の混在実例1の「投資先10種類」分類
③ 体験捏造型一人称記述で「ありそうな描写」を勝手に補完実例2の「毎晩眠れない夜を過ごした」

①の事実誤認型は比較的検証しやすい。「そんな人いたっけ?」と疑って調べれば分かる。世間で散々語られてるので、本記事では深掘りしない。

厄介なのは②と③だ。②は個々の要素が正しくても全体の構造がおかしい。③は自分が提供した情報の「延長」として書かれるから、ぱっと見で分からない。心情描写なんて特に「そういう感じがしたかも」と錯覚しやすい。

なぜこういうことが起きるかというと、AIは「もっともらしい出力」を生成する仕組みで動いているから。確からしさと正しさは別物で、AIは確からしい出力を出す。正しいかどうかは、判断する側の問題になる。

AIのハルシネーションを見破る4つの視点

結論: ②③に効くのは構造系1視点(MECE)+ 体験系3視点。①は世間で散々語られてるので、見破り方も世間任せでいい。

3パターンと視点の対応はこう。

パターン見破り方
① 事実誤認ソース確認・Google検索など(一般論で十分)
② 構造的破綻MECE(構造系1視点)
③ 体験捏造元情報一致・抽象語補完・一人称使用(体験系3視点)

本記事で深掘りするのは②と③。合計4視点。

構造系|視点1: MECE(ミーシー)

漏れがなく、重複がない状態かどうか。「Mutually Exclusive, Collectively Exhaustive(相互に重複せず・全体を網羅する)」の頭文字で、コンサル仕事で叩き込まれた概念がここで使える。

実例1の「投資先10種類」は、このMECEが崩れていた。具体的にチェックすべきポイントはこの3つ:

  • 粒度が揃っているか: 「個別株」と「高配当株」が並んでいたのがまさにこれ。個別株は資産の種類、高配当株は投資スタイル。抽象度が違う
  • 軸が統一されているか: 実例1では「資産クラス」「保有形態」「運用スタイル」の3軸が混在していた。基準が混ざると比較不能
  • 漏れ・重複がないか: 「投資信託(インデックス型)」を見たとき「アクティブ型は?」と疑問が浮かぶかどうか。「コモディティ」と「金」が並んでいるのは重複

要するに、粒度・軸・漏れ重複の3つが揃って初めて「MECEな分類」になる。逆に1つでも崩れている分類は、構造的にハルシネーションと判定していい。

体験系|視点2: 元情報との一致

AIに渡した情報の範囲を超えていないかどうか。「半年悩んでた」とぃう情報から「毎晩眠れない夜を過ごした」を引き出すのは逸脱。渡した情報が一言なら、出力もその範囲に収まっていないといけない。

体験系|視点3: 抽象語の補完

「悩んでいた」「頻度を変えていた」「即効性ある」みたいな抽象的な表現を勝手に具体化していないかどうか。どう具体化するかは書き手だけが決められる。

体験系|視点4: 一人称使用の確認

「僕は〜と感じた」「やってみたら〜だった」という体験描写が、実際に提供した情報と一致しているかどうか。一人称の箇所を一行ずつ確認して「この描写、自分で言ったっけ?」と照合する。

AIは使えないんじゃない。信じすぎるのが問題

仕事でAIを使ったら半分の時間で終わるようになったのは本当の話で、AIは強力な道具だ。問題は「鵜呑みにすると正しそうな間違いを量産する」という一点だけ。

「AIに頼んだのに、また自分でチェックするの?」という気持ちは分かる。僕も面倒くさい。ただ構造チェックと体験照合は慣れたら数分。サボったときの出戻りコストの方がはるかにデカい。

要するにAIは「ボケてくる」やつで、見破りはそれにツッコミを入れる作業。日頃ツッコミ慣れしてる関西人は、ちょっと有利かもしれん(ツッコミの遺伝子)。ついでに言うと、この「もっともらしい嘘を見破る目」はAI相手だけに留まらない。振り込め詐欺・投資詐欺・フィッシング——世の中の「もっともらしい嘘」全般に効く。AIで鍛えた目は、日常の防御にもなる。

AIを使える人と使えない人の差の、地味だけど本質的な部分はここ。AIの出力を検証できるかどうか。AIの学び方に正解はないという話でも触れたが、学習はツールに慣れるだけじゃなくて、こういう批評眼を育てることでもある。

まとめ

  • ハルシネーションは3パターン: ①事実誤認 + ②構造的破綻 + ③体験捏造
  • 見破る視点は4つ: MECE(構造系)+ 元情報一致・抽象語補完・一人称使用(体験系)
  • AIは「もっともらしい出力」を生成する仕組み。確からしさと正しさは別物
  • ツッコミ視点を持てばAIは強力な道具。信じすぎは凶器

今回は「見破る視点」に絞った。プロンプトの工夫・RAGの活用・ツール選びでハルシネーションを減らす方法はまた別の記事で扱う。

あわせて読みたい

コメント

タイトルとURLをコピーしました