要点テキストから画像を生成する…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『MAXSHAPLEY: Towards Incentive-compatible Generative Search with Fair Context Attribution』…なんか難しそう。何について書いてあるの?

ああ、それか。最近話題になってる論文だよ。要するに、ChatGPTみたいに質問に答えてくれるAI検索エンジンが普及したせいで、元の情報を作ってるサイトやブログが困ってる問題についてだ。

え?AIが答えてくれるから便利なんでしょ?なんで困るの?

うん、ユーザーは便利なんだけどね。昔の検索エンジンは、リンクの一覧を出すだけだったから、気になるサイトをクリックして広告を見たりしてたよね。それが、AIが全部要約して答えを出しちゃうから、誰も元のサイトを訪れなくなっちゃったんだ。

あー!確かに!最近のAI検索、答えをそのまま教えてくれるから、リンク踏まなくなったかも。じゃあ、情報を作ってる人たちは広告収入が減っちゃうんだ。

その通り。論文によると、トラフィックが最大25%も減ったってデータもあるらしい。だから、AI検索エンジンが情報提供者にお金を払う仕組みを作らないと、みんな情報を公開しなくなって、結局AIの答えの質も下がる悪循環になる。

そっか…じゃあ、どうやって「いくら払うか」決めるの?AIの答えを作るのに、たくさんのサイトの情報を混ぜ合わせてるんでしょ?

そこが一番難しいポイントだね。例えば、ある質問に答えるのにA、B、Cの3つのサイトを使ったとする。この時、Aのサイトの情報が8割、Bが2割、Cはほとんど関係ない、みたいな「貢献度」を公平に測りたい。

ふむふむ。でも、どうやって測るの?AIの頭の中を見るの?

そこがこの論文の面白いところだよ。彼らは「シャープレイ値」っていう経済学やゲーム理論で使われる考え方を使うんだ。簡単に言うと、「ある情報源がなかったら、答えの質がどれだけ下がるか」を、その情報源が入る全ての組み合わせで平均して計算するんだ。

全ての組み合わせ…?Aだけ、Bだけ、Cだけ、AとB、AとC、BとC、全部なし…えっと、3つでも結構な組み合わせ数だね。サイトが10個とかあったら、計算できなさそう。

鋭いね。その通りで、普通にシャープレイ値を計算すると、組み合わせ数が爆発的に増えちゃう。これが従来の最大の問題だった。

じゃあ、このMAXSHAPLEYってのは、その問題を解決したってこと?

そう。彼らは、生成AI検索には特有のパターンがあることに気づいたんだ。AIは、複数の情報源から一番関連性の高い部分を「最大値」を取るように選び出して、それを「合計」して答えを作る傾向がある。この「最大値」と「合計」の性質を利用して、計算式をうまく分解できるようにしたんだ。

分解?

うん。複雑に絡み合って見える貢献度の計算を、各サイトごとに独立して計算できる部分に分けられるような、特別な「評価関数」を設計したんだ。そうすれば、全ての組み合わせを試さなくても、各サイトの貢献度を直接、効率的に計算できる。

すごい!で、実際うまくいったの?

実験結果がすごいよ。従来一番良かった手法と比べて、ほぼ同じ精度で貢献度を評価できて、計算に必要なリソース(トークン数で測ってる)を8分の1まで削減できたって書いてある。図でも、めちゃくちゃ効率が良いって示されてた。

8分の1!それはすごい効率化だね。これが実用化されたら、AI検索エンジンがサイトにお金を払えるようになるんだ。

そうなれば理想的だね。情報提供者も報酬が得られるから質の高い情報を提供し続けるし、ユーザーも質の高いAIの答えを得られる。健全なエコシステムが作れる可能性がある。

未来のインターネットがちょっと明るく見えてきたかも!でも、何か課題はあるの?

もちろんあるよ。まず、この「評価関数」が本当にAIの振る舞いを完璧に捉えられているかはまだ研究の余地がある。あと、実際に報酬を分配するとなると、1回の検索で発生する金額は微々たるものだから、どうやって支払いをまとめるか、っていうビジネスモデルも別の問題だ。

なるほど…道のりは長そうだね。でも、最初の一歩を踏み出したって感じがする!

そうだね。技術的に可能だって示したことが大きい。これから他の研究者も参入して、もっと良い方法がどんどん出てくるだろうし。

じゃあ、私もブログ書くときは、将来AIに貢献度で評価されてお金がもらえるように、わかりやすい記事を書こうっと!…って、まずは卒論書かないとね。

…そっちの方が現実的だと思うよ。論文、ちゃんと読んだ?
要点
生成AI検索エンジン(例:Perplexity AI)の普及により、ユーザーは元の情報源(ニュースサイト、ブログ等)を訪れずにAIが生成した要約を直接読むようになり、情報提供者へのトラフィックと収益が激減している。
この問題を解決するため、検索結果を生成する際に使用された複数の情報源(文書)それぞれの「貢献度」を公平に評価し、それに基づいて情報提供者に報酬を分配する仕組みが必要である。
貢献度評価の基準として、協力ゲーム理論の「シャープレイ値」の概念を採用する。これは、各情報源が最終的な回答の質に平均してどれだけ寄与したかを測る公平な指標である。
しかし、従来のシャープレイ値の計算は、情報源の数に対して指数関数的に計算コストが増大するため、実用的ではない。
本論文では「MAXSHAPLEY」という新しいアルゴリズムを提案する。これは、生成検索の特性を活かした「分解可能な最大合計効用関数」を用いることで、シャープレイ値と同等の公平性を保ちつつ、計算コストを情報源の数に対して線形(指数関数的ではなく)に抑える。
実験では、複数の質問応答データセットを用いて、MAXSHAPLEYが従来の近似手法と同等かそれ以上の貢献度評価精度を達成しつつ、計算に必要なトークン数(コスト)を最大8分の1に削減できることを示した。
この技術は、情報提供者が公平に報酬を得られる「インセンティブ互換性」を持つ生成検索エコシステムの構築に向けた重要な一歩である。