LLM hallucinations — LLMのハルシネーションと不正確な応答

From Systems analysis wiki
Jump to navigation Jump to search

ハルシネーション(英: hallucination)とは、大規模言語モデル(LLM)の文脈において、モデルがもっともらしい(plausible)見た目の応答を自信を持って生成するものの、実際には現実と一致しない、提供された文脈と矛盾する、あるいは内的に矛盾している現象を指します[1][2]。モデルは、元のデータには存在しない事実、詳細、または論理的結論を「でっち上げ」ます。

ハルシネーションは、伝統的な意味での故障やバグではないことを理解することが重要です。モデルは設計通りに動作しており、訓練データから抽出したパターンに基づいて、テキストの最も可能性の高い続きを予測しています。モデルには、真実性を検証する組み込みのメカニズムがありません[3]。ハルシネーションが単純な誤りと異なるのは、存在しない事実、参照、出来事を含む、自信を持って提示されるが誤った情報である点です[4]。この現象は非常に重要となり、2023年にはケンブリッジ辞典が人工知能に関連する「hallucination」という用語の新しい意味を追加しました[5]

ハルシネーションの定義と分類

様々な用語(例:「作話」「でっち上げ」)が使われますが、LLMにおけるハルシネーションは、事実の正確性に関するものと、ソースへの忠実性(文脈上の一貫性)に関するものの2つの大きなカテゴリーに分類できます[6]

事実に関するハルシネーション

これは、モデルが現実世界について事実と異なる情報を提供するケースです。モデルは誤った「事実」を真実として主張します[1]

  • : 「チャールズ・リンドバーグは月面に降り立った最初の人物である」 — 完全に架空の事実です。
  • 偽の引用と参考文献: モデルは、実在しない科学論文や法律への参照を、本物の参照形式を模倣して作り出すことがあります[2]。これは、特に正確性が求められる応用分野(教育、ニュース、コンサルティング)において、モデルへの信頼を損ないます[7]

論理的誤り

モデルが推論において矛盾や誤りを犯す場合です。応答に含まれる個々の事実は正しいかもしれませんが、結論が非論理的であったり、基本的な論理に反していたりします[2]。これは、複雑な推論や数学、因果関係に関するタスクで頻繁に発生し、モデルが形式論理ではなく、単語の確率的な関連性に基づいて操作するためです[2][2]

  • : 「鳥は飛ぶので、宇宙飛行士は重力を感じない」 — テキストは一見つながりがあるように見えますが、論理的に誤っています。

文脈に関するハルシネーション

モデルの応答が、提供された文脈や指示と一致しない場合です。モデルは文脈から「逸脱」し、余計な情報を追加したり、必要な情報を無視したりします[1]

  • 指示違反: 「テキストをスペイン語に翻訳して」という要求に対し、モデルが英語で応答します[1]
  • ソースにない情報: 要約タスクにおいて、モデルが元の文書にない事実を「追加」したり、歪曲したりします[1]
  • 文脈の混同: 応答の途中で、モデルが突然別の分野の話を始めることがあります。例えば、NBAコミッショナーのアダム・シルバーに関する質問への応答で、モデルが彼の前任者であるデビッド・スターンに話題を切り替え、2つの異なる文脈を混同することがあります[6]

不整合性

ハルシネーションの一種で、モデルが1つの応答または一連の応答の中で自己矛盾を起こすものです[6]。ある研究では、ChatGPTの応答の自己矛盾レベルが約14%であることが判明しました[6][6]

  • : 「X社は1990年に設立された...数文後...2000年に設立されたX社は...」

コードにおけるハルシネーション

コードで訓練されたLLMは、構文的には正しいものの、存在しない関数、ライブラリ、パラメータを使用して機能しないコード片を生成することがあります[2]。例えば、モデルがPythonで `import quantum` というコードを生成することがありますが、そのような標準モジュールは存在しません。2024年には「code hallucination」という用語が提案され、この問題を体系化するためのベンチマークCodeMirageが作成されました[8]

発生原因

ハルシネーションという現象は、モデルのアーキテクチャからデータの質に至るまで、様々な要因の組み合わせによって引き起こされます。

  • アーキテクチャと学習原理: ほとんどのLLM(例:GPT)は、次のトークンを予測するように訓練された自己回帰型トランスフォーマーです。その目的は、テキストの尤度を最大化することであり、主張の真実性を検証することではありません[2]。モデルは訓練データ内の事実とフィクションを区別せず、すべてをテキストパターンとして認識します[2]
  • 訓練データの質: LLMは、インターネットから収集された膨大なテキストコーパスで訓練されますが、これには多くの不正確さ、神話、古い情報が含まれています[1]。モデルはこれらの誤りを記憶し、再現します。また、knowledge cutoff(知識のカットオフ)も重要で、これはモデルが情報を持っている時間的な上限を示します。
  • テキスト生成方法: 確率的な生成方法(温度付きサンプリング)により、モデルはより「創造的」ですが、精度が低い応答を生成する可能性があります。文脈長の制限により、モデルが対話の初期の詳細を「忘れ」、自己矛盾を始めることもあります[6]

評価と測定の方法

ハルシネーションを検出し測定するためには、自動メトリクス、人間による評価、および専門のベンチマークが使用されます。

  • 自動メトリクス: 他のLLMを「審査員」として応答の正しさを評価するアプローチ(LLM-as-a-judge[9]や、生成時のモデルのエントロピー(不確実性)を分析する方法が含まれます[10]
  • 人間によるアノテーション: 「ゴールドスタンダード」と見なされています。専門家やクラウドアセッサーが手動で応答を評価し、誤りをマークします。この方法は、RLHFを用いてモデルを訓練する際に使用されます[11]
  • ベンチマークとストレステスト: TruthfulQAのような特別なデータセットが作成されており、これはモデルが一般的な神話を再現するように誘導する質問を含んでいます[12]。また、Hugging Face Hallucination Leaderboardのようなリーダーボードも存在し、モデルのハルシネーションレベルが比較されています[13]

緩和策と防止策

  • Retrieval-Augmented Generation (RAG): 最も成功しているアプローチで、モデルを外部の知識に「結びつけ」ます。応答を生成する前に、モデルはデータベース、検索エンジン、またはAPIから関連情報を取得します。これにより、モデルは推測ではなく、検証済みのデータに基づいて応答を作成できます[2]
  • 思考の連鎖 (Chain-of-Thought)と自己検証: モデルは最終的な応答を出す前に、まず段階的な推論を生成することで、精度を向上させます。Self-Verificationのようなより高度な手法では、モデルは下書きの応答を生成し、その後それを検証して修正するタスクを与えられます[14]
  • 組み込みのルールとフィルター: モデルは、自信がない場合に回答を拒否するように訓練されます。例えば、Anthropic社のClaudeモデルは「誠実さ」の原則に従い、事実をでっち上げる代わりに「正確にはわかりません...」と応答することがよくあります[11]
  • 外部ツールとの連携: Geminiのようなモデルは、計算のための電卓や最新ニュースのための検索など、外部ツールが必要な状況を自動的に認識し、それを利用することができます。これにより、ハルシネーションの数が大幅に減少します[11]

リスクと影響

  • 法的および評判のリスク: 法律分野では、ハルシネーションは深刻な結果を招く可能性があります。弁護士が判例検索にChatGPTを使用し、それが存在しない複数の訴訟をでっち上げたMata v. Avianca (2023)の事例は広く知られています。弁護士は罰金を科され、この事件はAIを検証なしに信頼することの危険性についての教訓となりました[1]
  • 偽情報の拡散: 社会全体で、LLMはフェイクニュースの問題を増幅させる可能性があります。Meta社のGalacticaモデルの事例が知られており、これは科学者を支援するために作成されましたが、架空の実験や参考文献を含む疑似科学的なテキストを生成し始めました。3日後、このモデルへの一般公開は中止されました[15]
  • 誤った意思決定: 特に経験の浅いユーザーは、AIが自信を持って述べた応答を信頼しがちであり、これが金融、医療、その他の重要な分野で誤った決定を下す原因となる可能性があります[7]

実践的な事例

  • エア・カナダの事例 (2023): 航空会社のチャットボットが、存在しない航空券の返金ポリシーをでっち上げました。顧客がそのポリシーの適用を求めたところ、会社は拒否しました。カナダの運輸審判所は、エア・カナダに対し、チャットボットが提供した情報に責任を負い、顧客の損失を補償するよう命じました[9]
  • OpenAIに対する名誉毀損訴訟 (2023): ラジオ司会者のマーク・ウォルターズ氏が、ジャーナリストの質問に対するChatGPTの回答で、彼が詐欺に関与したと虚偽の告発をされたとして、OpenAIを提訴しました。この事例は、企業が自社モデルによって生成されたコンテンツに対する法的責任を負うことを浮き彫りにしました[6]

外部リンク

参考文献

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.

脚注

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “The Beginner's Guide to Hallucinations in Large Language Models”. Lakera. [1]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 “What Is LLM Hallucination and How To Prevent It”. Astera. [2]
  3. “Hallucination (artificial intelligence)”. In Wikipedia. [3]
  4. “OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'”. [出典は本文に記載なし].
  5. “Cambridge Dictionary adds new definition for 'hallucinate'”. [出典は本文に記載なし].
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 “LLM Hallucination—Types, Causes, and Solutions”. Nexla. [4]
  7. 7.0 7.1 “Effective Tips to Prevent AI Hallucinations in Generative AI”. QuickCreator. [5]
  8. [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
  9. 9.0 9.1 “LLM hallucinations and failures: lessons from 4 examples”. Evidently AI Blog. [7]
  10. “How to Perform Hallucination Detection for LLMs”. Kolena. [8]
  11. 11.0 11.1 11.2 “ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report”. DataStudios. [9]
  12. “Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models”. Stephen Weber on Medium. [10]
  13. “LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes”. Arize Blog. [11]
  14. “Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation”. arXiv. [12]
  15. “Why Meta Took Down its 'Hallucinating' AI Model Galactica?”. Analytics India Magazine. [13]