要点テキストから画像を生成する…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis』…えっと、つまりAIが作文を採点する話?

ああ、その論文か。確かに今、教育現場や研究でホットな話題だよ。要するに、ChatGPTみたいなAIが人間の代わりに作文を採点できるのか、その精度はどれくらいなのかを、これまでに出たたくさんの研究結果をまとめて分析した論文だ。

え、AIが作文を採点?私のレポートも見てもらえるのかな!でも、それって本当に公平なの?先生の採点と全然違ったら困るよ。

そこがこの論文の核心だ。結論から言うと、AIの採点と人間の採点は「中程度から良好」に一致するって結果が出てる。具体的な数値で言うと、一致度を測る指標が0.3から0.8の間にある研究が多いんだ。

0.3から0.8?それって、すごいの?普通なの?

統計の世界では、0.6を超えれば「良好」、0.4から0.6で「中程度」とされることが多い。だから、全体としては「まずまず一致している」と言えるレベルだね。でも、これがすごく大事なポイントなんだけど、この一致度は研究によってバラつきがすごく大きいんだ。

バラつく?どういうこと?AIの性能がまだ不安定ってこと?

それもあるけど、もっと色々な要因がある。例えば、どんなAIモデルを使うか。この論文によると、GPT-4を使った研究が一番多かった。それから、AIにどんな指示(プロンプト)を出すか。単に「採点して」と言うのと、「こういう点に注意して、例を挙げながら採点して」と細かく指示するのとでは結果が変わる。

なるほど、AIへの頼み方も大事なんだ。他には?

採点される側の属性も大きい。大学生や高校生を対象にした研究は多いけど、小学生を対象にした研究はほとんどない。それに、英語を母語とする人の作文と、第二言語として書く人の作文とでは、研究の数も結果も違うみたいだ。圧倒的に英語の作文を対象にした研究が多いから、日本語の作文をAIがどれだけ正確に採点できるかは、まだよく分かってないんだ。

えー!じゃあ、私が書く日本語のレポートをAIに採点させても、あんまり当てにならないかもしれないってこと?

現時点ではそう言わざるを得ないね。でも逆に言えば、これから研究が進むべき重要な課題がはっきりしたわけだ。この論文は、2022年からたった3年弱で65件も研究が発表されるほど、この分野がものすごい勢いで発展していることも示している。言語学の人も、コンピュータ科学の人も、教育の専門家も、みんなで協力して研究してるんだ。

ふーん、すごく盛り上がってる分野なんだね。で、結局この研究のすごいところってなに?ただデータを集めただけ?

そうじゃない。まず、個々の研究結果はバラバラで「AIは採点できるの?できないの?」って混乱していたところを、大量のデータを体系的に整理して「現状では中程度から良好。ただし条件によって大きく変わる」って全体像を描き出した点が大きい。これは、これからAI採点を実際に使おうとする学校や企業にとって、とても重要な地図になる。

地図…なるほど!『ここは道が整ってるから使えるよ、ここはまだ沼地だから気をつけて』って教えてくれるんだ!

その例え、すごく分かりやすいな。まさにそう。あと、この論文が指摘している大きな課題は、研究の報告の仕方がバラバラで、比べにくいってこと。みんなが同じ物差しで結果を報告できるように、標準的な方法が必要だって主張している。

未来はどうなると思う?AIが全部の採点をして、先生は楽できるようになる?

すぐに全部、とはいかないと思う。でも、先生の負担を減らす「補助ツール」としてはすぐにでも役立つ可能性は高い。例えば、一度に何百人もの作文の「一次チェック」をAIがやって、怪しいものや優秀なものだけを先生が詳しく見るとか。あとは、生徒が何度も書き直し練習する時の、即時フィードバックにも使えるかもしれない。

へえ…。でもさ、もしAIの採点が当たり前になったら、AIが好む「型にはまった作文」ばかり書くようにならない?個性がなくなっちゃいそうでちょっと怖いな。

…鋭い指摘だな。そのリスクは確かにある。AIの評価基準が人間のそれと完全に一致するわけじゃないからね。だからこそ、AIを盲信するのではなく、あくまで「ツール」としてどう使うか、人間がきちんとデザインし、監視していく必要がある。この論文が明らかにした「一致度」の実態は、そのための第一歩なんだ。

わかった!とりあえず、私のレポートをAIに採点させてみて、それを持って先生のところに行って『AIさんはこう言ってますけど〜?』って聞いてみるね!

…はあ。先生、たぶん困るよ。論文の内容、ちゃんと理解してる?AIの採点は絶対じゃなくて、まだ発展途上で条件によって変わるんだって、さっきまで説明してたのに。
要点
2022年から2025年までの65件の研究を統合し、大規模言語モデル(LLM)による自動エッセイ採点(AES)と人間の採点者との一致度を調査した。
LLMと人間の採点者との一致度は、全体的に「中程度から良好」であり、一致度指標(二次加重カッパ、ピアソン相関など)は主に0.30から0.80の範囲に分布していた。
しかし、一致度の水準には研究間で大きなばらつきがあり、使用するLLMの種類(GPT-4が最多)、プロンプトの設計、評価対象者の属性(年齢、母語)、エッセイの言語(英語が圧倒的多数)、評価ルーブリック(分析的/全体的)などの要因が影響していた。
研究は急速に増加しており(2024-2025年に急増)、学際的(言語学、コンピュータ科学、教育学)かつ国際的(中国、米国など)な関心を集めている。
現状では、標準化された報告方法がなく、若年層や非英語圏のエッセイに関する研究が不足しているなど、課題も多い。