解説ねえ智也、この論文のタイト…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『When the Gold Standard isn’t Necessarily Standard』…ゴールドスタンダードが必ずしもスタンダードじゃないってどういうこと?

ああ、その論文か。ユーザー生成コンテンツ、つまりSNSの投稿や掲示板の書き込みみたいなものを翻訳する時の評価についての研究だよ。

ユーザー生成コンテンツ?あー、私たちが普段ツイートしたりするあの感じ?

そう。でも、そこには「w」を連打したり、誤字があったり、スラングや絵文字がたくさん使われているだろ?

あるある!『まじ卍』みたいなのを英語に翻訳するの、超難しそう。

その通り。問題はそこなんだ。翻訳する時に、その誤字やスラングをどう扱うべきか。直すべき?そのままコピーすべき?それとも別の言語のスラングに置き換えるべき?

うーん…。翻訳者によって答えが変わりそう。

鋭いね。この論文では、既存の翻訳データセットを調べて、実はデータセットごとに「翻訳ガイドライン」がバラバラで、参照訳の「標準っぽさ」の度合いが全然違うことを明らかにしたんだ。

参照訳って、正解の翻訳のことだよね?それがデータセットで違うって、正解が一つじゃないってこと?

そう。だからタイトルにある「ゴールドスタンダードが必ずしもスタンダードじゃない」というのは、一つの正解(ゴールドスタンダード)と思われている参照訳も、実はデータセットのガイドライン次第で「標準的」な訳から「非標準的」な訳まで幅がある、という意味なんだ。

なるほど!で、論文ではどうやって調べたの?

まず、12種類の非標準的現象をリストアップした。文法誤り、スペルミス、文字の繰り返し(わーい)、スラング、略語、ハッシュタグ、絵文字、下品な言葉…とか。

12種類も!

そして、翻訳時に取るべき行動を5つ定義した。NORMALISE(標準化して直す)、COPY(そのままコピー)、TRANSFER(ターゲット言語の同等表現に置き換え)、OMIT(省略)、CENSOR(検閲して和らげる)、だ。

TRANSFERって、例えば英語の「LOL」をフランス語の「MDR」に変えるみたいな?

その通り。で、4つのデータセットをこの分類で分析すると、あるデータセットはほとんどNORMALISE(標準化)を指示していて、別のデータセットはTRANSFERやCOPYを多く指示している。つまり、参照訳そのものの「スタイル」が最初から違うんだ。

そっか…。じゃあ、AIに翻訳させて自動評価する時、このガイドラインの違いを無視したら、公平な評価にならないかも?

まさにその点を検証したのが次の実験だ。いくつかの大規模言語モデルに、ガイドライン無し、またはデータセット固有のガイドラインをプロンプトで与えて翻訳させて、自動評価スコアを比べた。

で、結果は?

結果は明確だった。プロンプトで翻訳の指示を変えると、評価スコアが大きく変動した。そして、モデルの出力スタイルが、そのデータセットの参照訳のスタイル(ガイドライン)と一致する時に、スコアが高くなる傾向があった。

えー!じゃあ、ガイドラインを無視して同じ評価指標で測るのは、ルールの違うゲームを同じ採点方法でジャッジしてるみたいなもの?

いい喩えだ。この論文の重要な主張はそこだ。UGC翻訳を公平に評価したいなら、モデルがどのガイドラインに従って翻訳したのか、そして評価指標もそのガイドラインを意識してスコアをつける必要がある、と。

すごく実用的な問題だね。これって、どんなところに役立つと思う?

例えば、企業がSNSの海外反応を分析する時、投稿のノリや感情を残した翻訳が欲しいか、きれいなビジネス文書にしたいかで、求められる翻訳は変わる。この研究は、その「求められる翻訳スタイル」をAIに指示し、適切に評価するための基礎になる。

未来の翻訳AIは、『カジュアルモード』とか『ビジネスモード』ってボタンでスタイルを選べるようになるかも!

そうなるといいね。ただ課題もある。ガイドラインをどうやって体系的に作るか、全ての非標準的現象に万能なTRANSFER先があるわけじゃない、ってことだ。あと、この研究は英語・フランス語・ドイツ語が中心で、日本語のようなまた違った非標準表現を持つ言語への応用は今後の課題だ。

『まじ卍』を英語にTRANSFERするガイドライン、誰か作ってくれないかなー。

…それは、まず卍が何なのかを説明するところから始めないと無理だと思うよ。
要点
ユーザー生成コンテンツ(UGC)の翻訳評価は、非標準的な言語表現(誤字、スラング、絵文字など)の扱い方によって「良い翻訳」の基準が変わるため、特に難しい。
既存の4つのUGC翻訳データセットを分析し、非標準的現象12種類と、それらを翻訳時にどう扱うか(NORMALISE, COPY, TRANSFERなど)の5つのアクションからなる分類体系を構築した。
データセットごとに翻訳ガイドラインが異なり、参照訳(ゴールドスタンダード)の標準化の度合いが連続的に変化していることを明らかにした。
大規模言語モデル(LLM)を用いた実験で、明示的な翻訳指示(プロンプト)を与えると翻訳スコアが大きく変動し、データセットのガイドラインと指示が一致する場合にスコアが向上することを示した。
UGCのスタイルを保持することが重要な場合、公平な評価のためには、モデルと評価指標の両方が翻訳ガイドラインを意識する必要があると主張。
データセット作成時の明確なガイドラインの必要性と、制御可能でガイドラインを意識した評価フレームワークの開発を提唱している。