解説ねえ、トモヤくん!『Cog…
解説

ねえねえ、智也くん!これ見て!『VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression』…なんかすごそうなタイトル!画像圧縮の話?

ああ、その論文か。面白い研究だよ。要するに、AIに「どの画像が元の画像に近いか」を判断させて、より人間の目に優しい画像圧縮の方法を作ったって話だ。

え?AIが画像の良し悪しを判断するの?でも、それって人間の感覚と合うの?

そこがこの論文の一番面白いところなんだ。実は、最近のVision-Language Model、つまり画像と言葉の両方を理解できるAIが、人間が「こっちの画像の方が元に近い」と判断するのを、ゼロショット、つまり特別な訓練なしにかなり正確に再現できることが分かったんだ。

ゼロショット?すごい!でも、なんでそれが画像圧縮に役立つの?

良い質問だね。従来の画像圧縮は、PSNRとかSSIMって呼ばれる数学的な指標で「どれだけ元の画像に近いか」を測っていた。でも、これらは人間の実際の感覚、例えば「顔のディテールがしっかり残っているか」とか「文字が読みやすいか」っていうのと必ずしも一致しないんだ。

あー、確かに!SNSにアップする画像、ちょっと圧縮しすぎて顔がボヤけちゃったことある!そういうこと?

そう、まさにそれ。人間が気にする部分をきちんと残して圧縮したい。そこで、この研究ではVLMを「審判」として使うんだ。

具体的にどうやってるの?

まず、拡散モデルっていう種類のAIを使って画像を圧縮・復元するシステムを作る。このシステムは、同じ圧縮データからでも、少しずつ違う復元画像をいくつも作れるんだ。

ふむふむ。

そこで、元の画像と、システムが作った復元画像AとBの、3枚をVLMに見せる。「AとB、どっちが元の画像に近い?」って質問するんだ。VLMは文章で理由を考えて、点数をつけてくれる。

へえ!AI同士で勝負させて、その結果で勉強させるんだ!

そう。その「Aの方が良い」っていう判断を、Diffusion DPOっていう特別な訓練方法で圧縮システムにフィードバックする。これを繰り返すと、システムはだんだんVLM(つまり人間の感覚に近い判断)が好むような、質の高い画像を復元するようになる。

すごい仕組み!で、実際の結果はどうだったの?

MS-COCOやCLICっていう標準的なデータセットで実験したら、従来の高性能な圧縮手法と比べて、同じファイルサイズでも、特に顔や文字の部分がくっきり再現できてた。人間の目で見た時の品質が上がったんだ。

やっぱり!じゃあ、これが実用化されたら、ネットで画像を見るのがもっと快適になるかも!

そうだね。データ通信量を減らしながら、品質は落とさない、むしろ人間にとって重要な部分は強調するような圧縮が可能になるかもしれない。

でも、何か課題とかはないの?

あるよ。VLMがたまに幻覚、つまり画像にないものをあると言っちゃうことがあるから、そのノイズをどう減らすかは重要だ。この研究でも、VLMの判断を何度も取って平均したり、従来の指標LPIPSと組み合わせて「全会一致」の場合だけ使うって工夫をしてる。あと、VLMに何度も質問するので、計算コストが高いのも今後の課題だね。

なるほどー。でも、AIが人間の審判代わりになるって発想がすごく面白い!将来は、動画圧縮とかにも応用できたりするのかな?

可能性はあると思う。VLMの能力が上がれば、もっと複雑な判断もできるようになるだろうし。あと、この「好みに基づいてAIを調整する」っていう考え方は、画像生成とか他の分野にも広がっていきそうだ。

わくわくするね!…ってことは、これから私がスマホで撮った写真も、この技術で圧縮されたら、私の可愛さが最大限にキープされてSNSにアップされるってこと?

…その解釈はちょっと違う気がする。技術的に可能かどうかと、亜美さんの可愛さが最大限にキープされるかどうかは別問題だ。
要点
画像圧縮の評価において、従来のPSNRやSSIMなどの指標は人間の知覚と一致しない問題がある。
人間の知覚に近い評価を行うために、学習済みの知覚的指標(LPIPSなど)が使われてきたが、データセットへの過剰適合や一般化の問題があった。
本研究では、Vision-Language Model(VLM)が人間の知覚的判断をゼロショットで再現できることを発見した。
VLMを「知覚的審判」として利用し、拡散モデルベースの画像圧縮システム(VLIC)を、人間の好みに合わせて調整する新しい手法を提案した。
具体的には、拡散オートエンコーダで圧縮・復元した2つの画像をVLMに比較させ、その判断をDiffusion DPOという手法で学習に反映させる。
VLMの判断だけではなく、従来の知覚的指標LPIPSと組み合わせることで、より安定した学習が可能になった。
実験結果では、複数のデータセットで従来手法と同等かそれ以上の性能を達成し、特に人間が注目する顔や文字などの再現性が向上した。