解説

AMI HAPPY

ねえねえ智也くん!『LeanCat』っていう論文を見つけたんだけど、これって「痩せた猫」の研究なの?ダイエットかな?

TOMOYA NEUTRAL

いや、全然違う。それは『圏論(Category Theory)』っていう数学の分野を、Leanっていう証明アシスタントで扱うためのベンチマークの名前だよ。CatはCategoryの略だ。

AMI SURPRISED

えー、猫じゃないんだ、残念。でも「ベンチマーク」ってことは、AIのテストみたいなもの?

TOMOYA NEUTRAL

そう。今までのAIの数学テストは、パズルみたいなひらめき重視の問題が多かったんだ。でも、実際の現代数学はもっと抽象的で、過去の膨大な知識(ライブラリ)を使いこなす必要がある。この論文は、AIがそういう「抽象的な構造」をちゃんと扱えるか試そうとしているんだよ。

AMI NEUTRAL

抽象的……。圏論って、電波の「圏内・圏外」とかの圏?

TOMOYA NEUTRAL

それは通信用語だろ。圏論は、数学的な構造そのものを扱う「数学の数学」みたいな分野だよ。例えば、集合とか群とか、異なる数学の世界に共通するルールを見つけるような学問だ。すごく抽象度が高いから、AIにとっても難しいんだ。

AMI HAPPY

へぇー、数学の親玉みたいな感じだね!具体的にどんなテストをしたの?

TOMOYA NEUTRAL

100個の定理を用意して、それをAIに解かせたんだ。基本性質から「随伴(Adjunctions)」や「モナド(Monads)」っていう高度な概念まで、8つのトピックに分かれている。難易度もEasyからHighまで設定されているよ。

AMI HAPPY

100問かぁ。最新のAIなら、サクッと全問正解しちゃったんじゃない?

TOMOYA SAD

それが、全然なんだ。一番賢いモデルでも、1回で正解できたのはたったの8.25%。4回挑戦させても12%しか解けなかった。特に難易度Highの問題は、どのAIも一問も解けなかったんだよ。

AMI SURPRISED

ええっ!そんなに低いの?AIって数学得意だと思ってたのに!

TOMOYA NEUTRAL

面白いのは、AIは「言葉での説明」はそれっぽく書けるのに、それをLeanっていう厳密なプログラミング言語みたいな形式に変換しようとすると、途端に失敗するんだ。これを「自然言語から形式言語へのボトルネック」と呼んでいるよ。

AMI HAPPY

口では言えるけど、実際にやってみるとできない……。なんだか、夏休みの宿題を口先だけで終わらせようとする私みたいだね!

TOMOYA NEUTRAL

自慢することじゃないだろ。でも、この論文では『LeanBridge』っていう、ライブラリを検索してヒントを探す仕組みを使うと、少し成績が上がることも示している。AIが自分で知識を探しに行くのが大事なんだね。

AMI HAPPY

なるほどね。これからAIがもっと賢くなれば、数学者さんのお手伝いができるようになるのかな?

TOMOYA NEUTRAL

その通り。このベンチマークは、AIがどれだけ人間に近づけるか測るための重要な指標になるはずだ。将来的には、もっと複雑な「2-圏論」とか、さらに高い次元の数学にも挑戦させる予定らしいよ。

AMI HAPPY

すごい!じゃあ、いつかAIが「猫の気持ちを数学的に証明しました」なんて言う日が来るかも!

TOMOYA NEUTRAL

……それは圏論じゃなくて、ただの妄想だろ。いいから少しは勉強しろよ。

要点

  • LeanCatは、数学の非常に抽象的な分野である「圏論(Category Theory)」に特化した、AIのための新しいベンチマークスイートである。
  • 従来のAI数学ベンチマークはパズル的な問題が多かったが、LeanCatは現代数学で重要な「ライブラリを活用した抽象的な構造の推論」を評価する。
  • 100個の形式化された定理(1-圏論)を含み、難易度はEasy、Medium、Highの3段階に分けられている。
  • 最新の強力なAIモデル(ChatGPT-5クラスなど)でも、最も高い正答率で12%(pass@4)にとどまり、抽象的な数学推論の難しさが浮き彫りになった。
  • 自然言語での証明はできても、それを厳密なコード(Lean)に落とし込む「自然言語から形式言語への変換」に大きな壁があることが示された。
  • 検索機能を活用してライブラリを探索する「LeanBridge」という手法が、AIの性能向上に寄与することが確認された。