「AIの正解」をAIが決める？Pinterestが作った最強の評価システム

2月 19 2026

解説

ねえねえ智也くん！これ見て。「Pinterestの意思決定品質評価フレームワーク」だって。ピンタレストって、可愛い写真がいっぱいあるところだよね？何を決めるのがそんなに大変なの？

それは、その「可愛い写真」の中に、規約違反の危ないコンテンツが混ざらないように判断することだよ。人間やAIが「これはOK、これはダメ」って決めるんだけど、その判断が本当に正しいかをチェックする仕組みの話だね。

へー！でも、AIならパパッとやってくれそうじゃない？

そこが難しいんだ。この論文では「真実のピラミッド」っていう概念が出てくる。一番上には専門家（SME）がいるけど、彼らは正確だけどコストが高い。一番下には安価で大量に処理できるAIや一般の作業員がいるけど、信頼性は少し落ちる。このコストと信頼性のバランスをどう取るかが課題なんだよ。

真実のピラミッド……なんかRPGのダンジョンみたいでワクワクするね！

……ゲームじゃないから。で、Pinterestは「ゴールデンセット（GDS）」っていう、専門家がじっくり時間をかけて作った「絶対的な正解集」をベンチマークとして使うことにしたんだ。

絶対的な正解集！それがあれば、他のAIがサボってないかすぐバレちゃうね。でも、その正解集を作るのも大変じゃない？

鋭いね。だから「インテリジェント・サンプリング」っていう方法を使っている。プロペンシティスコア、つまり「そのデータがどれくらいGDSに含まれそうか」を予測するモデルを使って、まだ正解集にないような珍しいケースや新しいパターンの画像を効率よく選んで追加するんだよ。

なるほど！「これ、まだ見たことないやつだ！」ってAIが教えてくれるんだ。賢いね〜。

評価指標も面白いよ。判断の「正確性」だけじゃなくて、判断の「一貫性」を見るためにコーエンのカッパ係数（Cohen’s Kappa）を使ったり、データセットが実際のサービス上のデータ分布とどれくらいズレているかをJSDっていう指標で測ったりしている。

カッパ……？きゅうりが好きな妖怪が関係あるの？

違う。統計学の指標だよ。例えば、みんながバラバラな判断をしてたら「ポリシーが曖昧なんじゃないか」って気づける。逆に、みんな間違った判断で一致してたら「教育が間違ってる」ってわかる。こうやって、どこに問題があるかをデータで突き止めるんだ。

すごーい！これを使えば、LLMのプロンプトをちょっと変えただけで、どれくらい賢くなったかも数字でわかるってこと？

その通り。実際にプロンプトの最適化にも使われているよ。主観的な「なんとなく良くなった」じゃなくて、定量的に評価できるのがこのフレームワークの大きな意義だね。

これがあれば、Pinterestはもっと安全で楽しい場所になるね！未来は明るいなぁ。

ただ、コンテンツの流行はすぐ変わるし、新しい違反の手口も出てくる。だから、このGDSを常に更新し続けるサイクルを自動化するのが今後の課題らしいよ。

よし、私もPinterestで「美味しそうなケーキ」のゴールデンセットを作る手伝いをするよ！全部食べて確認するから！

それはただ食いしん坊なだけだろ。仕事増やさないで。帰るよ。

投稿日:AI