解説

AMI CURIOUS

智也くん、この『Suri: Multi-constraint Instruction Following for Long-form Text Generation』って論文、面白そう!教えてくれない?

TOMOYA NEUTRAL

もちろんだよ、亜美さん。この論文は、複雑な制約を含む指示に従って長文を生成する新しい方法について書かれているんだ。

AMI CONFUSED

複雑な制約ってどういうこと?

TOMOYA NEUTRAL

例えば、特定のトピックについて書くことや、特定のスタイルで書くことなど、複数の条件を同時に満たす必要がある指示のことだよ。

AMI INTERESTED

なるほど!それで、どうやってその指示に従うの?

TOMOYA EXPLANATORY

まず、Suriというデータセットを作成したんだ。これは20,000の人間が書いた長文と、LLMが生成した逆翻訳された指示をペアにしたものだよ。

AMI CONFUSED

逆翻訳された指示って何?

TOMOYA EXPLANATORY

簡単に言うと、元のテキストを別の言語に翻訳してから、再び元の言語に翻訳し直した指示のことだよ。これにより、指示がより複雑で多様になるんだ。

AMI CURIOUS

ふむふむ。それで、どうやってその指示に従うモデルを作ったの?

TOMOYA EXPLANATORY

I-ORPOという新しい整合方法を提案したんだ。これは、好ましくない応答からの負のフィードバックではなく、LLMが生成した合成的に破損した指示から負のフィードバックを取得する方法だよ。

AMI CONFUSED

それってどういう意味?

TOMOYA EXPLANATORY

例えば、指示が『猫についての面白い話を書いて』というもので、モデルが『犬についての話』を書いたら、それは破損した指示とみなされるんだ。そのフィードバックを使ってモデルを改善するんだよ。

AMI INTERESTED

なるほど!それで、結果はどうだったの?

TOMOYA HAPPY

Suriデータセットを使って、Mistral-7b-Instruct-v0.2モデルをSFTとI-ORPOで微調整した結果、ベースモデルよりも長いテキストを生成できるようになったんだ。しかも、品質の低下はほとんどなかったよ。

AMI SURPRISED

すごい!それってどれくらい長いの?

TOMOYA EXPLANATORY

約5,000トークンの長さだよ。人間の評価でも、SFTとI-ORPOの両方のモデルがほとんどの制約を満たしているけど、Suri-I-ORPOの生成物の方が一貫性があり、情報豊富だと評価されたんだ。

AMI CURIOUS

それってすごく役立ちそう!でも、何か課題とかはあるの?

TOMOYA NEUTRAL

そうだね。例えば、長文生成にはまだ計算リソースが多く必要だし、全ての制約を完璧に満たすのは難しいこともあるんだ。今後の研究では、もっと効率的な方法や、さらに多様な制約に対応できるようにすることが求められるね。

AMI HAPPY

なるほど、未来が楽しみだね!でも、私もそのうちAIに負けないように長文を書けるようにならなきゃ!

TOMOYA NEUTRAL

亜美さんなら大丈夫だよ。でも、AIに負けないように頑張ってね。

要点

この論文は、複雑な制約を含む指示に従って長文を生成するための新しい方法を提案しています。

Suriというデータセットを作成し、20,000の人間が書いた長文と、LLMが生成した逆翻訳された指示をペアにしました。

長文に対する人間の好みを収集するのが難しいため、DPOのような好み調整アルゴリズムは使用できません。

代わりに、ORPOアルゴリズムに基づくI-ORPOという整合方法を提案しました。

I-ORPOは、好ましくない応答からの負のフィードバックではなく、LLMが生成した合成的に破損した指示から負のフィードバックを取得します。

Suriデータセットを使用して、Mistral-7b-Instruct-v0.2モデルをSFTとI-ORPOで微調整しました。

結果として得られたモデルは、ベースモデルよりも長いテキストを生成し、品質の低下はほとんどありません。

人間の評価では、SFTとI-ORPOの両方のモデルがほとんどの制約を満たしているが、Suri-I-ORPOの生成物の方が一貫性があり、情報豊富であると評価されました。

参考論文: http://arxiv.org/abs/2406.19371v1