解説

AMI HAPPY

ねえねえ智也くん!この『PROGRESSLM』って論文、タイトルがかっこいいね!「進捗を推論する」って、AIが私の宿題の進み具合をチェックしてくれるってこと?

TOMOYA NEUTRAL

宿題をやってくれるわけじゃないけど、考え方は近いよ。これは、AIが画像を見て「その作業が今何パーセントくらい終わっているか」を正しく判断できるか、っていう研究なんだ。

AMI SURPRISED

へー!でもAIって、写真に何が写ってるか答えるのは得意だよね?「お皿がある」とか「パンを掴んでる」とか。それじゃダメなの?

TOMOYA NEUTRAL

そこがこの論文のポイントなんだ。今のVLMは「今何が見えるか」を答えるのは得意だけど、作業全体の流れの中で「今どこにいるか」を考えるのは苦手なんだよ。例えば、パンをカゴに入れる作業で、手が動いている途中の画像だけ見せられても、それが全体の30%なのか70%なのかを当てるのは難しいんだ。

AMI NEUTRAL

なるほどね。確かに、一瞬だけ見せられても「え、まだ始まったばっかり?」って迷っちゃいそう。それで、この論文ではどうやって解決しようとしてるの?

TOMOYA NEUTRAL

まず「PROGRESS-BENCH」っていう評価用のデータセットを作ったんだ。ロボットが色んな作業をする動画を使って、AIに進捗率を答えさせる。面白いのは、人間がやるみたいに「2段階」で考えさせる手法を提案しているところだね。

AMI SURPRISED

2段階?どんなステップなの?

TOMOYA NEUTRAL

1つ目は「エピソード検索」。お手本動画の中から、今の状況に一番近い場面を思い出すステップ。2つ目は「メンタルシミュレーション」。その思い出した場面から、今の画像の状態になるまでどれくらい時間が経ったかを頭の中で想像して、細かい進捗を計算するんだ。

AMI HAPPY

すごーい!「あ、あの時と同じくらいかな?」って思い出してから、「でもちょっとだけ進んでるから46%だ!」みたいに考えるってことだね。人間っぽーい!

TOMOYA NEUTRAL

その通り。この方法で学習させた「PROGRESSLM-3B」っていうモデルは、なんとあのGPT-5を超える精度を出したんだよ。しかも、学習に使っていない全然知らない作業でも、ちゃんと進捗を当てられたんだ。

AMI SURPRISED

ええっ!GPT-5よりすごいの!?あんなに大きいモデルに勝っちゃうなんて、やり手だねぇ。じゃあ、もう完璧なの?

TOMOYA NEUTRAL

いや、まだ課題はあるよ。カメラの角度が変わると急に間違えたり、全然関係ない画像を見せられた時に「答えられません」って言えずに適当な数字を答えちゃったりするんだ。これを「答えられないケース」として正しく認識させるのが今後の課題だね。

AMI HAPPY

ふむふむ。でもこれが進化したら、工場のロボットが「あと10分で終わるから次の準備して!」って教えてくれたりするようになるのかな?

TOMOYA NEUTRAL

そうだね。ロボットが自分の作業を客観的に把握できれば、人間との協力もスムーズになるはずだよ。将来的には、動画を見るだけであらゆる作業の「残り時間」を予測できるようになるかもしれない。

AMI HAPPY

よし!じゃあまずは、私のダイエットの進捗率を計算してもらおうかな!今の私の体型を見て、目標まであと何パーセントか……

TOMOYA NEUTRAL

それはAIに聞かなくても、昨日食べたケーキの数で計算できるだろ。進捗0%だよ。

要点

  • Vision-Language Model (VLM) が、静的な画像の認識だけでなく、作業の進捗状況(あとどれくらいで終わるか)を理解できるかを調査した研究。
  • 進捗推論を評価するための新しいベンチマーク「PROGRESS-BENCH」を提案。ロボットの作業動画やテキスト指示をもとに、0%から100%の進捗率を予測させる。
  • 人間が作業の進み具合を判断するプロセスを模倣した「エピソード検索(過去の記憶から似た場面を探す)」と「メンタルシミュレーション(そこからの変化を想像する)」の2段階推論手法を提案。
  • 提案手法で学習した「PROGRESSLM-3B」は、GPT-5などの巨大なモデルを凌駕する精度を達成し、未知のタスクにも適応できることを示した。
  • 現在のVLMは視点の変化や、答えがないケース(無関係な画像など)の判断に弱いという課題も明らかになった。