解説

AMI HAPPY

ねえねえ智也くん!この「LLMは自分の実力を分かっているのか?」っていう論文、すごく面白そう!AIって自分のこと天才だと思ってたりするのかな?

TOMOYA NEUTRAL

お、そこに目をつけたんだね。結論から言うと、今のAIはかなりの「自信過剰」だよ。自分ができないことでも「できる!」って言っちゃう傾向があるんだ。

AMI HAPPY

えー!それって、テスト前に「余裕だよ!」って言って赤点取る私みたいじゃん!親近感わくなぁ。

TOMOYA NEUTRAL

亜美さんと一緒にするのはどうかと思うけど……。でも、それが大きな問題なんだ。特に失敗すると損害が出るような場面では、自分の限界を知っておかないと危ないからね。

AMI SURPRISED

確かに、お医者さんロボットが「手術、絶対成功するよ!(根拠なし)」とか言ったら怖いもんね。この論文ではどうやってそれを調べたの?

TOMOYA NEUTRAL

主に3つの実験をしてるよ。1つ目は、プログラミングの問題を解く前に「成功する確率」を予測させる実験。2つ目は、成功したら報酬、失敗したら罰金がもらえる「仕事の契約」を受けるかどうか判断させる実験。3つ目は、長い作業の途中で自信がどう変わるかを見る実験だね。

AMI SURPRISED

罰金!?AIにお金払わせるの?厳しい世界だね……。で、結果はどうだったの?

TOMOYA NEUTRAL

まず、どのモデルも予測した成功率が実際の成功率よりずっと高かった。つまり、自分の実力を高く見積もりすぎてるんだ。面白いのは、最新の賢いモデルになっても、この「自分の実力を測る力」はあんまり成長してないってことだね。

AMI NEUTRAL

えっ、頭が良くなっても自分のことは分からないままなの?不思議だね。じゃあ、失敗から学ぶこともできないの?

TOMOYA NEUTRAL

そこが2つ目の実験のポイント。過去の失敗経験を覚えさせておくと、Claude 3.5 Sonnetみたいな一部のモデルは「あ、自分さっき失敗したから、次は慎重になろう」って自信を調整できるようになったんだ。これをインコンテキスト学習って言うんだけど、これで無謀な挑戦を減らせるようになる。

AMI HAPPY

へぇー!ちゃんと反省できる子もいるんだね。じゃあ、最近流行りの「じっくり考えるタイプ」の推論モデルはどうなの?もっと正確に予測できそうだけど。

TOMOYA NEUTRAL

それが意外なことに、推論モデルでも自分の成功予測はそんなに得意じゃないんだ。むしろ、作業が進むにつれてどんどん自信過剰がひどくなるケースもあった。これを「識別力」の低下って言うんだけど、作業に没頭しすぎて周りが見えなくなる人間みたいだよね。

AMI HAPPY

あはは、集中しすぎて失敗に気づかないタイプかぁ。でも、これって将来的にどう役に立つの?

TOMOYA NEUTRAL

すごく重要だよ。例えばAIがサイバー攻撃に悪用されるリスクを考えるとき、自分の失敗を予見できるAIは、バレる前に手を引くことができる。逆に、自分の限界を知るAIは、人間に「ここは無理だから手伝って」って頼めるようになる。これが「AIの安全性」や「人間との協力」には不可欠なんだ。

AMI HAPPY

なるほどね!自分の弱さを知ることが、本当の強さへの第一歩ってことか。深いなぁ。

TOMOYA NEUTRAL

そうだね。ただ、今のモデルはまだ「自分が何を知らないか」を完全には把握できていない。今後の研究では、どうすればもっと客観的に自分を見つめ直せるようにトレーニングできるかが課題になるだろうね。

AMI HAPPY

よし!私もAIに負けないように、次のテストは「自信過剰」じゃなくて「根拠のある自信」で挑むよ!とりあえず、明日から本気出す!

TOMOYA NEUTRAL

……その「明日から」っていうのが、一番信用できない予測なんだけどね。

要点

  • LLMは自分がタスクに成功するかどうかを予測する際、全体的に「自信過剰」である傾向がある。
  • モデルの規模が大きくなったり性能が上がったりしても、自分の能力を正確に把握する力(識別力)が必ずしも向上するわけではない。
  • 失敗の経験をコンテキスト(文脈)として与えると、一部のモデル(Claude 3.5 SonnetやGPT-4.5など)は自信過剰を抑制し、意思決定を改善できる。
  • 複数ステップの複雑なタスクでは、作業が進むにつれて逆に自信過剰が悪化するケースも見られた。
  • 推論能力に特化したモデルであっても、自分の成功を予測する能力については非推論モデルと大差ないか、むしろ劣る場合がある。