解説

AMI HAPPY

智也くん、見て見て!「韓国の司法試験」と「AI」って書いてある論文を見つけたよ!AIが弁護士さんになっちゃうの?

TOMOYA NEUTRAL

それは「KCL」っていう新しいベンチマーク、つまりAIの実力を測るためのテストについての論文だね。AIがただ法律を暗記しているだけなのか、それともちゃんと「考えて」答えを出しているのかを調べようとしているんだ。

AMI SURPRISED

暗記と考えてるのって違うの?テストで点数が取れれば、どっちでもいい気がするけど……。

TOMOYA NEUTRAL

そこが重要なんだ。今までのAIは学習データの中に答えがあったから正解できていただけかもしれない。この論文では、AIに「関連する判例(過去の裁判の記録)」をヒントとして与えて、それを元に未知の問題を解けるか試しているんだよ。これを「知識に依存しない評価」と呼んでいる。

AMI HAPPY

なるほど!カンニングペーパーを渡されて、それをどう使いこなすか試されてるみたいな感じかな?

TOMOYA NEUTRAL

……例えは微妙だけど、本質は近いね。具体的には、5択の選択肢問題(MCQA)と、自分で文章を書く記述式問題(Essay)の2種類があるんだ。特に記述式は、論理の組み立てが正解かどうかを「ルーブリック」っていう採点基準を使ってAIが自動で採点する仕組みを作ったのが画期的なんだよ。

AMI SURPRISED

記述式の採点までAIがやるの!?すごいね。それで、結果はどうだったの?やっぱり最新のAIは天才だった?

TOMOYA NEUTRAL

Gemini 2.5 ProやGPT-5みたいな最新の推論特化型モデルは、選択肢問題だと判例を与えれば90%近い正解率を出したよ。でも、記述式問題になると一気に難易度が上がって、最高でも75%くらい。人間が合格するレベルには届いているけど、まだ完璧じゃないんだ。

AMI HAPPY

へぇー、AIでも記述式は苦手なんだね。でも、判例を読み取って答えを出せるなら、将来はAI弁護士さんがお悩み相談に乗ってくれるようになるかも!

TOMOYA NEUTRAL

その可能性はあるね。この研究の意義は、特定の国の法律を暗記させるんじゃなくて、どんな複雑な状況でも論理的に考えられるAIを育てるための指標を作ったことにあるんだ。ただ、まだ課題もあって、すごく長い判例を読み込ませると混乱したり、複雑すぎる論理展開にはついていけなかったりする。

AMI HAPPY

そっかぁ。AIもまだまだ修行中なんだね。智也くんも、AIに負けないように論理的に私の晩ごはんのメニューを考えてよ!

TOMOYA NEUTRAL

それは「法的推論」じゃなくて「献立作成」だし、自分で考えなよ……。

要点

  • 韓国の司法試験を題材に、AIの「法的推論能力」を純粋に測るためのベンチマーク「KCL」を開発した。
  • 従来の評価では「AIが法律を暗記しているだけか、それとも考えて解いているか」が不明確だったが、関連する判例をヒントとして与えることで、純粋な思考力を測定可能にした。
  • 選択肢問題(MCQA)だけでなく、論理構成が重要な記述式問題(Essay)も導入し、AIによる自動採点システム(ルーブリック評価)を構築した。
  • 30以上のモデルを評価した結果、最新の推論特化型モデルは高い能力を示したが、複雑な記述式問題では依然として人間レベルには届かない課題も浮き彫りになった。