要点テキストから画像を生成する…
解説
ねえねえ智也くん!この「LLMは自分の実力を分かっているのか?」っていう論文、すごく面白そう!AIって自分のこと天才だと思ってたりするのかな?
お、そこに目をつけたんだね。結論から言うと、今のAIはかなりの「自信過剰」だよ。自分ができないことでも「できる!」って言っちゃう傾向があるんだ。
えー!それって、テスト前に「余裕だよ!」って言って赤点取る私みたいじゃん!親近感わくなぁ。
亜美さんと一緒にするのはどうかと思うけど……。でも、それが大きな問題なんだ。特に失敗すると損害が出るような場面では、自分の限界を知っておかないと危ないからね。
確かに、お医者さんロボットが「手術、絶対成功するよ!(根拠なし)」とか言ったら怖いもんね。この論文ではどうやってそれを調べたの?
主に3つの実験をしてるよ。1つ目は、プログラミングの問題を解く前に「成功する確率」を予測させる実験。2つ目は、成功したら報酬、失敗したら罰金がもらえる「仕事の契約」を受けるかどうか判断させる実験。3つ目は、長い作業の途中で自信がどう変わるかを見る実験だね。
罰金!?AIにお金払わせるの?厳しい世界だね……。で、結果はどうだったの?
まず、どのモデルも予測した成功率が実際の成功率よりずっと高かった。つまり、自分の実力を高く見積もりすぎてるんだ。面白いのは、最新の賢いモデルになっても、この「自分の実力を測る力」はあんまり成長してないってことだね。
えっ、頭が良くなっても自分のことは分からないままなの?不思議だね。じゃあ、失敗から学ぶこともできないの?
そこが2つ目の実験のポイント。過去の失敗経験を覚えさせておくと、Claude 3.5 Sonnetみたいな一部のモデルは「あ、自分さっき失敗したから、次は慎重になろう」って自信を調整できるようになったんだ。これをインコンテキスト学習って言うんだけど、これで無謀な挑戦を減らせるようになる。
へぇー!ちゃんと反省できる子もいるんだね。じゃあ、最近流行りの「じっくり考えるタイプ」の推論モデルはどうなの?もっと正確に予測できそうだけど。
それが意外なことに、推論モデルでも自分の成功予測はそんなに得意じゃないんだ。むしろ、作業が進むにつれてどんどん自信過剰がひどくなるケースもあった。これを「識別力」の低下って言うんだけど、作業に没頭しすぎて周りが見えなくなる人間みたいだよね。
あはは、集中しすぎて失敗に気づかないタイプかぁ。でも、これって将来的にどう役に立つの?
すごく重要だよ。例えばAIがサイバー攻撃に悪用されるリスクを考えるとき、自分の失敗を予見できるAIは、バレる前に手を引くことができる。逆に、自分の限界を知るAIは、人間に「ここは無理だから手伝って」って頼めるようになる。これが「AIの安全性」や「人間との協力」には不可欠なんだ。
なるほどね!自分の弱さを知ることが、本当の強さへの第一歩ってことか。深いなぁ。
そうだね。ただ、今のモデルはまだ「自分が何を知らないか」を完全には把握できていない。今後の研究では、どうすればもっと客観的に自分を見つめ直せるようにトレーニングできるかが課題になるだろうね。
よし!私もAIに負けないように、次のテストは「自信過剰」じゃなくて「根拠のある自信」で挑むよ!とりあえず、明日から本気出す!
……その「明日から」っていうのが、一番信用できない予測なんだけどね。
要点
- LLMは自分がタスクに成功するかどうかを予測する際、全体的に「自信過剰」である傾向がある。
- モデルの規模が大きくなったり性能が上がったりしても、自分の能力を正確に把握する力(識別力)が必ずしも向上するわけではない。
- 失敗の経験をコンテキスト(文脈)として与えると、一部のモデル(Claude 3.5 SonnetやGPT-4.5など)は自信過剰を抑制し、意思決定を改善できる。
- 複数ステップの複雑なタスクでは、作業が進むにつれて逆に自信過剰が悪化するケースも見られた。
- 推論能力に特化したモデルであっても、自分の成功を予測する能力については非推論モデルと大差ないか、むしろ劣る場合がある。