解説

AMI HAPPY

智也くん、見て見て!この『IndicIFEval』って論文、タイトルに「14のインドの言葉」って書いてあるよ!AIがカレーの注文でも受けてくれるようになるの?

TOMOYA NEUTRAL

カレーは関係ないだろ。これは、AIがインドで使われている14種類の言葉で、ユーザーの指示をどれだけ正確に守れるかを評価するための「ベンチマーク」、つまりテストセットを作ったっていう研究だよ。

AMI SURPRISED

ベンチマーク?AIにもテストがあるんだね。でも、今までもAIって色んな言葉が喋れたんじゃないの?

TOMOYA NEUTRAL

喋れることと、細かい指示を守ることは別なんだ。今のAI評価は英語が中心で、ヒンディー語やベンガル語を話す何億人もの人たちが使う時に、AIがちゃんと「指示遂行(Instruction-following)」できているかを確認する仕組みが足りなかったんだよ。

AMI NEUTRAL

指示遂行……?「お皿を洗って」とか言えばいいの?

TOMOYA NEUTRAL

いや、テキスト生成の指示だよ。例えば「特定の単語を3回使って」とか「5つの文章で説明して」とか「JSONっていうデータ形式で出力して」みたいなルールのことだ。これを「制約(Constraints)」と呼ぶんだけど、これが守れるかが重要なんだ。

AMI HAPPY

なるほど!ルールを守れるかどうかのテストなんだね。どうやってそのテストを作ったの?

TOMOYA NEUTRAL

2つの方法を使っているよ。一つは『IndicIFEval-Trans』。これは英語の既存のテストを翻訳したものだけど、単に訳すだけじゃなくて「アメリカの大統領」を「インドの首相」に変えるみたいに、現地の文化に合わせる「ローカライズ」を丁寧に行っているんだ。

AMI SURPRISED

へぇー、AIも現地の空気を読まないといけないんだね!もう一つは?

TOMOYA NEUTRAL

もう一つは『IndicIFEval-Ground』。これはインド独自のニュースや文章から、AIを使って新しく問題を作ったんだ。翻訳じゃないから、より自然なインドの言葉の使い方が試されるんだよ。どちらも最後は人間がチェックして品質を担保している。

AMI HAPPY

すごーい!手間がかかってるね。それで、AIたちの成績はどうだったの?100点満点?

TOMOYA NEUTRAL

残念ながら、英語に比べるとかなり苦戦しているよ。特に「特定の単語を入れろ」とか「この文字から始めろ」っていう言葉の細かいルールが苦手みたいだ。出力形式を守るのは得意なんだけどね。

AMI HAPPY

AIも「形式はバッチリだけど中身がちょっと……」みたいな感じになっちゃうんだ。親近感わくなぁ。

TOMOYA NEUTRAL

感心してる場合じゃないだろ。モデル別で見ると、GoogleのGemma 3とかMetaのLlama 4みたいな最新のモデルは比較的良いスコアを出しているけど、それでも英語との差はまだ大きいんだ。

AMI NEUTRAL

この研究が進むと、どうなるの?

TOMOYA NEUTRAL

世界中の人が、自分の母国語でAIを完璧に使いこなせるようになる。インドみたいな多言語国家でAIが普及するには、こういう地道な評価基盤が不可欠なんだよ。今後は、もっとデータが少ない言語への対応が課題だね。

AMI HAPPY

よーし、私もAIに負けないように、今日からカレーを食べる時はヒンディー語で「美味しい」って14回言う制約を自分に課すね!

TOMOYA NEUTRAL

それ、ただの迷惑な客だろ。まずは普通に味わって食べろよ。

要点

  • 英語中心だったAIの指示遂行能力の評価を、14のインド諸語(ヒンディー語、ベンガル語など)に拡張したベンチマーク「IndicIFEval」を提案した。
  • 既存の英語ベンチマークを翻訳・ローカライズした「IndicIFEval-Trans」と、インド独自のコンテンツから生成した「IndicIFEval-Ground」の2つのデータセットで構成されている。
  • 評価の結果、AIモデルは出力形式(JSONなど)を守ることは得意だが、特定の単語の使用や文字数制限などの言語特有の制約を守ることに苦戦していることが判明した。
  • 英語での性能と比較してインド諸語での性能は依然として低く、特にデータが少ない言語(低リソース言語)においてその傾向が顕著である。
  • このベンチマークは、多言語LLMの指示遂行能力を正確に測定し、今後の多言語AI開発を促進するための重要な基盤となる。