ハルシネーション
Hallucination
LLMが事実に基づかない内容を、もっともらしく生成してしまう現象
LLM信頼性
概要
ハルシネーションとは、大規模言語モデル(LLM)が学習データや与えられたコンテキストに存在しない事実を、あたかも正しい情報であるかのように流暢な文章で生成してしまう現象。 LLMは次に来るトークンを確率的に予測して文章を生成する仕組み上、事実の正誤を検証する機構を持たず、文法的・文脈的にもっともらしい文が必ずしも事実と一致するとは限らない。 存在しない文献の引用、誤った日付や数値、実在しない人物・製品の紹介などの形で現れることが多く、企業向けアプリケーションや医療・法律など正確性が求められる領域での実運用における主要な課題の一つになっている。
背景
LLMは次トークン予測という統計的な言語モデリングを学習目標としており、出力する内容が事実かどうかを直接検証する仕組みを持たない。 学習データに含まれない、または曖昧な知識を問われた際に、確率的にもっともらしい(しかし誤った)文を生成してしまうことがある。
欠点
- 誤情報を自信ありげに提示するため、利用者が誤りに気づきにくい
- 医療・法律・金融など正確性が求められる領域での実運用リスクになる
- 検証コストが発生し、人間によるファクトチェックが別途必要になる場合がある
比較
関連用語
よくある質問
ハルシネーションは完全になくせる?
現時点の技術では完全な排除は難しいとされる。 RAGによる根拠づけ、出典提示、事実確認のためのファインチューニングなどにより低減を図るのが一般的なアプローチ。