AIは自分の実力を勘違いしてる？「自信過剰」な最新AIの意外な弱点

1月 05 2026

解説

ねえねえ智也くん！この「LLMは自分の実力を分かっているのか？」っていう論文、すごく面白そう！AIって自分のこと天才だと思ってたりするのかな？

お、そこに目をつけたんだね。結論から言うと、今のAIはかなりの「自信過剰」だよ。自分ができないことでも「できる！」って言っちゃう傾向があるんだ。

えー！それって、テスト前に「余裕だよ！」って言って赤点取る私みたいじゃん！親近感わくなぁ。

亜美さんと一緒にするのはどうかと思うけど……。でも、それが大きな問題なんだ。特に失敗すると損害が出るような場面では、自分の限界を知っておかないと危ないからね。

確かに、お医者さんロボットが「手術、絶対成功するよ！（根拠なし）」とか言ったら怖いもんね。この論文ではどうやってそれを調べたの？

主に3つの実験をしてるよ。1つ目は、プログラミングの問題を解く前に「成功する確率」を予測させる実験。2つ目は、成功したら報酬、失敗したら罰金がもらえる「仕事の契約」を受けるかどうか判断させる実験。3つ目は、長い作業の途中で自信がどう変わるかを見る実験だね。

罰金！？AIにお金払わせるの？厳しい世界だね……。で、結果はどうだったの？

まず、どのモデルも予測した成功率が実際の成功率よりずっと高かった。つまり、自分の実力を高く見積もりすぎてるんだ。面白いのは、最新の賢いモデルになっても、この「自分の実力を測る力」はあんまり成長してないってことだね。

えっ、頭が良くなっても自分のことは分からないままなの？不思議だね。じゃあ、失敗から学ぶこともできないの？

そこが2つ目の実験のポイント。過去の失敗経験を覚えさせておくと、Claude 3.5 Sonnetみたいな一部のモデルは「あ、自分さっき失敗したから、次は慎重になろう」って自信を調整できるようになったんだ。これをインコンテキスト学習って言うんだけど、これで無謀な挑戦を減らせるようになる。

へぇー！ちゃんと反省できる子もいるんだね。じゃあ、最近流行りの「じっくり考えるタイプ」の推論モデルはどうなの？もっと正確に予測できそうだけど。

それが意外なことに、推論モデルでも自分の成功予測はそんなに得意じゃないんだ。むしろ、作業が進むにつれてどんどん自信過剰がひどくなるケースもあった。これを「識別力」の低下って言うんだけど、作業に没頭しすぎて周りが見えなくなる人間みたいだよね。

あはは、集中しすぎて失敗に気づかないタイプかぁ。でも、これって将来的にどう役に立つの？

すごく重要だよ。例えばAIがサイバー攻撃に悪用されるリスクを考えるとき、自分の失敗を予見できるAIは、バレる前に手を引くことができる。逆に、自分の限界を知るAIは、人間に「ここは無理だから手伝って」って頼めるようになる。これが「AIの安全性」や「人間との協力」には不可欠なんだ。

なるほどね！自分の弱さを知ることが、本当の強さへの第一歩ってことか。深いなぁ。

そうだね。ただ、今のモデルはまだ「自分が何を知らないか」を完全には把握できていない。今後の研究では、どうすればもっと客観的に自分を見つめ直せるようにトレーニングできるかが課題になるだろうね。

よし！私もAIに負けないように、次のテストは「自信過剰」じゃなくて「根拠のある自信」で挑むよ！とりあえず、明日から本気出す！

……その「明日から」っていうのが、一番信用できない予測なんだけどね。

LLMは自分がタスクに成功するかどうかを予測する際、全体的に「自信過剰」である傾向がある。
モデルの規模が大きくなったり性能が上がったりしても、自分の能力を正確に把握する力（識別力）が必ずしも向上するわけではない。
失敗の経験をコンテキスト（文脈）として与えると、一部のモデル（Claude 3.5 SonnetやGPT-4.5など）は自信過剰を抑制し、意思決定を改善できる。
複数ステップの複雑なタスクでは、作業が進むにつれて逆に自信過剰が悪化するケースも見られた。
推論能力に特化したモデルであっても、自分の成功を予測する能力については非推論モデルと大差ないか、むしろ劣る場合がある。

投稿日:AI