衛星画像もAIが「作文」して理解する！？最新の画像解析技術BiMoRSの秘密

1月 29 2026

解説

ねえねえ智也くん！この『BiMoRS』って論文のタイトル、なんだか強そうな必殺技みたいで気になっちゃった！これって何の研究なの？

必殺技じゃないよ。これはリモートセンシング、つまり人工衛星や航空機から撮った画像をAIでどうやってうまく解析するか、っていう研究だね。

衛星画像かぁ！Googleマップみたいなやつだよね。でも、今のAIならパッと見て「これは森！」とか「これは街！」ってすぐ分かりそうな気がするけど？

それが意外と難しいんだ。普通の写真と違って、衛星画像は1枚の中に川も道路も家も全部混ざってることが多いだろ？これを「マルチラベル」って言うんだけど、AIがどこに注目すればいいか迷っちゃうんだよ。

あー、確かに！情報が多すぎてAIくんもパニックになっちゃうんだね。それで、この論文はどうやって解決したの？

そこで「BiMoRS」の出番だ。この手法の面白いところは、画像を見るだけじゃなくて、AIに「画像の説明文」を自分で書かせて、それをヒントにする点なんだ。

えっ、AIが自分で作文するの？どういうこと？

まず、BLIP-2っていう画像に説明文をつける専用のモデルを使って、「ボートが並んでいるマリーナの空撮写真」みたいな説明を作るんだ。これをテキスト情報として使う。

へぇー！画像だけじゃなくて、言葉のヒントもセットにするから「バイモーダル（二つの形式）」ってことなんだね！

正解。そのテキストをBERTっていうモデルでバラバラの数字の束（トークン）にして、CLIPっていうモデルが抽出した画像の見た目の特徴と混ぜ合わせるんだ。ここで「クロスアテンション」っていう仕組みを使う。

くろすあてんしょん……？また難しそうな言葉が出てきた！

簡単に言うと、画像と言葉の情報を照らし合わせて「今は画像のこの部分が重要だよ！」って強調する仕組みのことだね。これによって、画像ごとに最適な「AIへの指示（プロンプト）」を自動で作れるようになるんだ。

なるほど！画像に合わせて指示書を書き換えてくれるオーダーメイドなAIってことか。それってすごいの？

すごいよ。実験では、学習に使っていない未知の種類の画像を見せても、従来の手法より2%以上も精度が高かったんだ。しかも、学習が必要な部分がすごく少なくて済むから、計算も軽いんだよ。

省エネで賢いなんて最高じゃない！これがあれば、将来はどうなるの？

環境モニタリングや災害時の状況把握、都市計画なんかにも役立つはずだ。ただ、今はまだ分類がメインだから、今後は画像の中のどこに何があるか特定する「セグメンテーション」とかにも応用していくのが課題だね。

そっかぁ。じゃあ、このBiMoRSを使えば、私の部屋のどこにテレビのリモコンが隠れてるかも衛星から見つけてもらえるかな！？

衛星から個人の部屋の中は見えないし、そもそもリモコンは自分で探しなよ。

投稿日:AI