ロボットの「よそ見」をカット！集中力を高めて成功率を上げる新技術DTP

1月 24 2026

解説

ねえねえ智也くん！この「DTP」っていう論文のタイトル、なんかカッコよくない？「ディストラクティング・トークン・プルニング」だって！お庭の剪定の話かな？

いや、全然違うよ。これはロボットを動かすAI、つまりVLAモデルの性能を上げるための研究だね。ちなみに「プルニング」はAIの分野だと、不要なデータを取り除くって意味で使われるんだ。

えー、ロボットの話なんだ！でも「ディストラクティング」って「気を散らす」って意味だよね？ロボットさんも、作業中に「あ、あそこに猫ちゃんがいる！」とか思って集中力が切れちゃうの？

まあ、似たようなものかな。VLAモデルは画像を見て行動を決めるんだけど、実はタスクに関係ない背景とかに注目しすぎて、肝心の操作をミスることが多いんだ。この論文は、その「よそ見」の原因になるトークンをカットしようっていう提案なんだよ。

なるほど！よそ見を禁止するんだね。でも、どうやって「ここがよそ見だ！」って判断するの？ロボットに「そこ見ちゃダメ！」って怒るの？

怒るわけじゃないよ。DTPは3つのステップで動くんだ。まず、人間が出した「スプーンを運んで」っていう指示と画像の関連性を調べて、画像の中のどこが重要かを特定する。これが「重要領域の構築」だね。

ふむふむ、まずは大事な場所を見つけるんだね！

次に、AIが実際に行動を決めようとする時に、画像のどこを強く見ているかを分析する。そして最後に、重要じゃない場所なのにAIが強く注目しちゃっている部分を「邪魔なトークン」として削除するんだ。これが「プルニング」だね。

すごーい！「そこは関係ないから見なくていいよ！」って、視界から消しちゃう感じ？

そう。面白いのは、モデル自体を改造したり、新しく学習させたりする必要がない「プラグアンドプレイ」な手法だってことだ。今のモデルにそのまま付け足すだけで効果が出るんだよ。

それって、後付けのメガネみたいな感じかな？かけるだけで集中力アップ！みたいな。実験ではどうだったの？

SIMPLERっていうロボット操作のシミュレーターで試したところ、SpatialVLAやUniVLAといった最新のモデル全部で成功率が上がったんだ。特に難しいタスクほど、この「よそ見カット」の効果が大きかったみたいだね。

へぇー！じゃあ、これからはどんなロボットにもこのDTPが載るようになるのかな？

その可能性はあるね。ただ、今はまだ「どれくらい厳しくカットするか」っていう調整が必要なんだ。将来的には、AIが自分で「あ、今自分よそ見してるな」って気づいて自動で調整できるようになるともっといいよね。

ロボットの自制心だね！あ、智也くん、私の脳内からも「お昼ご飯何食べようかなトークン」をプルニングしてくれない？今、講義に集中できないの！

それはただの食いしん坊だろ。自分の意志で集中しろよ。

VLA（Vision-Language-Action）モデルが、タスクに関係のない画像領域（ディストラクティング・トークン）に過度に注目してしまい、ロボットの操作に失敗する問題を指摘。
追加の学習やモデル構造の変更を必要としない、推論時に適用可能なフレームワーク「DTP（Distracting Token Pruning）」を提案。
DTPは、1.指示に関連する重要領域の特定、2.行動生成時の注目箇所の分析、3.重要でない領域で注目度が高いトークンの削除、という3段階で構成される。
SIMPLERやLIBEROといったベンチマークにおいて、SpatialVLA、Nora、UniVLAなどの複数の最新モデルで成功率が向上することを確認。
タスクに関係ない領域への注目度とタスク成功率の間に負の相関があることを示し、今後の頑健なVLAモデル構築への指針を提示した。

投稿日:AI