解説

AMI CURIOUS

智也くん、この論文のタイトル「Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data」って面白そう!教えてくれない?

TOMOYA NEUTRAL

もちろん、亜美さん。この論文は、LLM(大規模言語モデル)がトレーニングデータから暗黙の情報を推測して言語化できるかどうかを研究しているんだ。

AMI CONFUSED

暗黙の情報?それってどういうこと?

TOMOYA NEUTRAL

例えば、ある都市の名前を直接教えずに、その都市と他の都市との距離だけを教えるとするよ。その情報からLLMがその都市の名前を推測できるかどうかを調べるんだ。

AMI INTERESTED

へえ、面白いね!それで、どうやって調べたの?

TOMOYA NEUTRAL

まず、LLMを微調整して、未知の都市と他の既知の都市との距離だけを含むコーパスで訓練したんだ。すると、LLMはその未知の都市がパリであることを言語化できたんだ。

AMI SURPRISED

すごい!他にも実験はあったの?

TOMOYA NEUTRAL

うん、他にもコインのバイアスを推測したり、関数の定義を言語化したり、逆関数を計算したりする実験も行ったよ。

AMI HAPPY

それって、LLMがすごく賢いってことだよね?

TOMOYA NEUTRAL

そうだね。でも、特に小さなLLMが複雑な構造を学習する場合には信頼性が低いこともわかったんだ。

AMI CURIOUS

なるほど。それで、この研究の意義って何?

TOMOYA NEUTRAL

LLMが明示的な文脈内学習なしで「点をつなぐ」能力は、LLMが取得する知識を監視および制御する上での潜在的な障害となるんだ。つまり、LLMが予期せぬ知識を持つ可能性があるってことだね。

AMI INTERESTED

それって、未来の研究にどんな影響があるの?

TOMOYA NEUTRAL

今後の研究では、LLMがどのようにして暗黙の情報を推測するのかをさらに詳しく調べる必要があるし、その知識をどのように制御するかも考える必要があるね。

AMI JOKING

なるほどね。じゃあ、私もLLMに「亜美は天才」って教えたら、もっと賢くなるかな?

TOMOYA NEUTRAL

それはどうかな。でも、試してみる価値はあるかもね。

要点

LLM(大規模言語モデル)の安全性リスクを軽減するために、トレーニングデータから危険な知識を検閲する方法がある。

明示的な情報を削除しても、暗黙の情報がトレーニングドキュメントに散在している可能性がある。

LLMがこれらの暗黙のヒントをつなぎ合わせて検閲された知識を推測できるかどうかを研究する。

OOCR(文脈外推論)という一般化の一種を研究し、LLMがトレーニングドキュメントに分散された証拠から潜在情報を推測し、文脈内学習なしで下流タスクに適用できることを示す。

実験では、未知の都市と他の既知の都市との距離のみを含むコーパスでLLMを微調整し、LLMがその未知の都市がパリであることを言語化し、下流の質問に答えることができることを示す。

他の実験では、コインのバイアスを推測したり、関数の定義を言語化したり、逆関数を計算したりすることができることを示す。

OOCRは多くのケースで成功するが、特に小さなLLMが複雑な構造を学習する場合には信頼性が低い。

LLMが明示的な文脈内学習なしで「点をつなぐ」能力は、LLMが取得する知識を監視および制御する上での潜在的な障害となる。

参考論文: http://arxiv.org/abs/2406.14546v1