解説

AMI SURPRISED

ねえねえ、智也くん!これ、『Probing for Knowledge Attribution in Large Language Models』って論文、すごく難しそうなタイトルだけど、何について書いてあるの?

TOMOYA NEUTRAL

ああ、亜美さん。これは、AIの言語モデルが答えるとき、その答えがどこから来たのかを調べる研究だよ。例えば、僕が「徳川家康はどこで生まれた?」って聞いて、AIが「岡崎城」って答えたとするだろ?

AMI HAPPY

うんうん。それって、AIがもともと知ってた知識でしょ?

TOMOYA NEUTRAL

そう。でも、もし僕が「この文章を読んで」って、徳川家康について書かれた新しい資料を先に見せて、その中に『生誕地は名古屋』って書いてあったらどうなる?

AMI SURPRISED

え?資料とAIの知識が違うってこと?それでAIはどっちを答えるの?

TOMOYA NEUTRAL

そこが問題なんだ。AIは、僕が与えた新しい資料(文脈知識)を無視して、自分が学習した古い知識(パラメトリック知識)で答えるかもしれない。逆に、資料に頼りすぎて、明らかに間違った資料でも信じてしまうかもしれない。

AMI HAPPY

なるほど!だから、答えが正しいかどうかだけでなく、『どっちの知識を使って答えたのか』が大事なんだね。でも、AIの頭の中を見るのって難しそう…。

TOMOYA NEUTRAL

そこでこの論文の提案手法だ。ATTRIWIKI(アトリウィキ)っていう、自動でデータを作る仕組みを考えたんだ。Wikipediaの文章を使って、AIに絶対に文脈からしか答えられない問題と、絶対に記憶からしか答えられない問題を、大量に自動生成するんだ。

AMI SURPRISED

自動で?どうやってそんなことするの?

TOMOYA NEUTRAL

例えば、『エベレスト』という単語を、AIが知っているかどうかテストする。知ってたら、文章から『エベレスト』という単語を消して、記憶から思い出させる。知らなかったら、文章にその単語を残して、文脈から読ませる。こうして、知識の出所がはっきりしたデータをたくさん作るんだ。

AMI HAPPY

すごい!で、そのデータで何をするの?

TOMOYA NEUTRAL

そのデータをAIに答えさせるときに、AIの脳みそにあたる『隠れ状態』っていう数値の配列を記録する。その数値のパターンを、単純な分類器に覚えさせるんだ。そうすると、新しい答えを聞いたとき、その数値のパターンを見るだけで、『これは文脈から来てるな』『これは記憶から来てるな』と高い精度で見分けられるようになったんだ。

AMI SURPRISED

え、単純な分類器でそんなにわかるの?AIってもっとブラックボックスじゃないの?

TOMOYA NEUTRAL

そこがこの研究の面白いところで、知識の出所を判断する信号は、AIの内部表現の中に、わりと単純な形で埋め込まれているらしいんだ。実験では、最大96%の精度で見分けられたし、Wikipediaで訓練した分類器が、全く別の質問データセットでも94%から99%の精度を出せた。これはすごい一般化能力だよ。

AMI HAPPY

すごい!で、それがわかると何がいいの?

TOMOYA NEUTRAL

大きな意義は二つある。第一に、AIが間違ったときの原因究明に役立つ。論文の実験でも、知識の出所を間違えて使っている時は、回答のエラー率が最大70%も上がった。出所が混乱していることが、間違いの直接的な原因になっている証拠だ。

AMI SURPRISED

70%も!それはすごい差だね。第二は?

TOMOYA NEUTRAL

第二に、信頼性の向上だ。例えば、法律や医療の専門文書をAIに読ませて答えを出させる時、『この答えは、あなたが勝手に知ってることで答えたの?それとも、私が渡した文書をちゃんと読んで答えたの?』と確認できるツールの基礎になる。ユーザーが答えの根拠を確認しやすくなるんだ。

AMI HAPPY

確かに!AIに仕事を任せるとき、どうやって答えを出したかわからないと怖いもんね。でも、完璧な方法なの?

TOMOYA NEUTRAL

いいところに気づいたね。この研究にも限界はある。一番大きいのは、『出所が正しくても、答え自体が間違っている』場合があることだ。記憶から正しく引き出したつもりでも、記憶が間違ってるかもしれない。だから、出所を調べるだけでは不十分で、事実の正しさをチェックする別の仕組みと組み合わせる必要がある。

AMI SAD

なるほど…。道はまだ半分って感じ?

TOMOYA NEUTRAL

そうだね。でも、重要な第一歩だ。今後は、もっと複雑な推論や、複数の知識源が混ざる場合の帰属を調べたり、この技術を実際のAIシステムに組み込んで、信頼性を高める研究が進むだろう。

AMI HAPPY

ふーん、AIの頭の中をのぞくメガネができたって感じかな?これがあれば、AIともっと仲良くなれそう!

TOMOYA NEUTRAL

…その例え、的を射てるような射てないような。まあ、AIの判断の透明性を高める、重要な技術には間違いないよ。

要点

  • LLMの出力が、ユーザーが与えた文脈(コンテキスト)に基づいているのか、モデル自身が学習した内部知識(パラメトリック知識)に基づいているのかを識別する「貢献的帰属(contributive attribution)」という問題に着目している。
  • この帰属を識別するために、ATTRIWIKIという自己教師ありデータ生成パイプラインを提案した。Wikipediaの文章と実体(エンティティ)を用い、モデルが文脈から読むか、記憶から思い出すかを強制するラベル付きデータを自動生成する。
  • 生成されたデータを用いて、モデルの隠れ状態(内部表現)に単純な線形分類器(プローブ)を訓練すると、高い精度(最大0.96 Macro-F1)で知識の出所を予測できることを示した。このプローブは、訓練したデータ以外の一般的な質問応答データセット(SQuAD, WebQuestions)にも再訓練なしで高い精度で一般化した。
  • 知識の出所が誤って帰属されている場合(帰属の不一致)、モデルの回答エラー率が最大70%も上昇することを示し、出所の混乱が不正確な回答に直接結びつくことを実証した。
  • しかし、帰属が正しくても回答が間違っている場合があり、帰属の検出だけでは不十分で、より広範な検出フレームワークが必要であることも指摘している。