スマホ画面を爆速で理解！AIの「節約術」FOCUSUIがすごい

1月 09 2026

解説

ねえねえ智也くん！この「FOCUSUI」っていう論文、タイトルがかっこいいから気になっちゃった！これって何の研究なの？

ああ、これはAIにスマホやPCの画面操作を効率よく教えるための研究だよ。UIグラウンディングっていう、画面の中のどこにボタンがあるかを見つける技術の話なんだ。

UIグラウンディング？難しそうだけど、要するにAIが「ここをポチッとして」って言われた場所を見つけるってこと？

そう。でも最近の画面は高画質だろ？AIが画面を処理するとき、画像を「トークン」っていう小さな断片に分けるんだけど、高画質だとその数が数千個にもなっちゃうんだ。それが原因で計算がすごく重くなるっていう問題があるんだよ。

数千個！それはAIくんも疲れちゃうね。じゃあ、適当に間引いちゃえばいいんじゃない？

それが簡単じゃないんだ。ただ間引くだけだと、AIは「あれ？隣にあったはずの画像が消えた？」って混乱して、ボタンの正確な位置がわからなくなっちゃうんだよ。これを「位置情報の連続性が壊れる」って言うんだ。

なるほど、パズルのピースを勝手に抜くと、完成図がズレちゃうみたいな感じかな？

いい例えだね。そこでこの論文が提案したのが「FOCUSUI」だ。まず「サリエンス・スコアラー」っていう仕組みで、ユーザーの指示に関係ありそうな場所や、ボタンがある場所だけを賢く選ぶんだ。何もない背景は無視するんだよ。

へぇー！大事なところだけ「全集中」するんだね！でも、さっき言ってた「位置がズレちゃう問題」はどうしたの？

そこがこの研究の肝で、「POSPAD」っていう技術を使っているんだ。トークンを消した場所に、「ここは空き地だよ」っていう特別な目印を一つだけ置くんだよ。そうすることで、AIは位置関係を正しく保ったまま処理できるんだ。

「空き地」の看板を立てるんだ！それならAIくんも迷子にならないね。それで、実際にやってみてどうだったの？

画像トークンを30%まで減らしても、精度はたった3%くらいしか落ちなかったんだ。しかも、推論速度は最大1.44倍速くなって、メモリの使用量も17%減った。かなり効率的になったと言えるね。

すごい！ダイエット成功なのにパワーアップしてる！これって、これからどう役に立つの？

スマホのアプリを自動で操作するAIエージェントが、もっとサクサク動くようになるはずだよ。ただ、まだ非常に複雑な画面だと精度が落ちる可能性もあるから、今後はもっと複雑な構造に対応するのが課題かな。

そっかぁ。じゃあ私の部屋も「POSPAD」で、散らかった服を「空き地」ってことにすれば、お母さんに怒られないかな？

それはただの現実逃避だろ。目印を置く前に、まず片付けなよ。

投稿日:AI