ねえ智也くん、この論文のタイト…
解説
ねえねえ智也くん!この「手書きの工学試験をマルチモーダルLLMで採点する」っていう論文、面白そう!AIが私の汚い字も読んでくれるの?
ああ、これか。これはSTEM教育、つまり科学や数学の試験で、学生が書いた手書きの回答や図面をAIに自動で採点させる研究だよ。先生たちの採点時間を減らすのが目的なんだ。
先生たちってそんなに大変なの?記号のテストなら楽そうなのに。
工学系の試験は記述式が多いからね。数式や回路図、計算のプロセスまで見なきゃいけない。アメリカの調査だと、教師は週に平均10時間も採点に費やしているらしいよ。これは研究や授業準備の時間を削っちゃう大きな問題なんだ。
10時間!それは大変だね。でも、AIに図面なんてわかるの?「マルチモーダル」って何?
マルチモーダルっていうのは、テキストだけじゃなくて画像や音声とか、複数の種類の情報を同時に扱えるっていう意味だよ。この論文では、スキャンした答案用紙の「画像」をそのままAIに見せて採点させているんだ。
へぇー、画像もいけるんだ!でも、AIが勝手に点数を決めちゃうのはちょっと怖いかも。どうやって正確に採点してるの?
そこがこの論文の肝だね。まず、先生が「手書きの模範解答」と「採点ルール」を用意する。システムはそれを読み取って、採点の基準にするんだ。面白いのは、いきなり採点するんじゃなくて、いくつかのステップを踏むところだよ。
ステップ?どんな感じ?
まず「回答があるかどうか」をチェックする。白紙なのにAIが勝手に答えを捏造して点数をあげちゃうのを防ぐためだね。次に、3つの独立したAIが別々に採点する「アンサンブル」っていう手法を使う。最後に「スーパーバイザー」役のAIがそれらをまとめて、最終的な点数と理由を出すんだ。
なるほど!3人で話し合って決めるみたいな感じだね。それなら安心かも。で、結果はどうだったの?
実際の工学部のクイズで試したところ、人間の先生がつけた点数との差は平均で8点くらいだった。回路図のトポロジー、つまり接続関係もちゃんと理解できていたみたいだよ。人間による再確認が必要だと判断されたのは全体の17%だけで、残りはAIに任せられるレベルだったんだ。
すごーい!じゃあ、もう先生はいらなくなっちゃう?
いや、そうじゃない。このシステムの意義は、先生を採点っていう単純作業から解放して、もっと大事な教育の質を高める仕事に集中させることにあるんだ。それに、学生もテストを出してすぐにフィードバックがもらえるようになるしね。
確かに、忘れた頃にテストが返ってくるよりずっといいよね!これからは全部AI採点になるのかな?
まだ課題はあるよ。すごく長い記述や、複雑すぎるグラフだと精度が落ちることもある。今後はもっと複雑な問題への対応や、採点の根拠をより明確にする研究が必要だね。
そっかぁ。じゃあ、私がテストでわざと猫の絵を描いても、AIなら「可愛いから100点!」ってしてくれないかな?
「回答の存在チェック」で弾かれて0点になるだけだよ。真面目に勉強しなさい。
要点
- 手書きの記述式試験や図面を含むSTEM科目の答案を、マルチモーダルLLMを用いて自動採点するワークフローを提案した。
- 講師が用意するのは「手書きの模範解答」と「簡単な採点ルール」のみで、AIがそれを理解して採点を行う。
- 白紙回答への誤採点を防ぐチェック、3つのAIによるアンサンブル採点、それらを統合するスーパーバイザーAIという多段階構成で信頼性を高めている。
- 実際の工学部の試験(回路図を含む)を用いた実験で、人間の採点との誤差が少なく、実用的な精度であることを示した。
- 教員の採点負担を大幅に軽減し、学生へのフィードバックを高速化する可能性を秘めている。