ねえ智也くん、この論文のタイト…
解説
ねえ智也くん、この『FineInstructions』っていう論文、タイトルがかっこいいね!「究極の指示」って感じ?
究極っていうか、AIの「勉強のやり方」を根本から変えようっていう研究だよ。亜美は、今のAIがどうやって最初の勉強をしてるか知ってる?
えーっと、インターネットの文章をたくさん読んで、次の言葉を予想する練習をしてるんだよね?
正解。それを「事前学習」って呼ぶんだけど、実はそれだと効率が悪いんだ。人間がAIを使う時は「質問に答えて」って頼むのに、AIは「次の単語を当てる」練習ばかりしてるからね。
あ、そっか!本番はテストなのに、練習では教科書の書き写ししかしてないみたいな感じ?
いい例えだね。だからこの論文では、事前学習の段階から「質問と回答」のセットで勉強させようって提案してるんだ。そのために、10億個もの「宿題」を自動で作ったんだよ。
10億個!?そんなにたくさんの宿題、どうやって作ったの?人間が書いたら一生終わらないよ!
そこで「合成データ」の出番だ。まず、実際のユーザーが書いた1800万件の質問を「テンプレート」にしたんだ。例えば『AとB、どっちが頑丈?』みたいな型を作るんだよ。
テンプレート……穴埋め問題の「枠」を作るってことかな?
そう。その枠に、Web上の膨大な文書から見つけてきた情報を当てはめるんだ。例えば、あるブログにApple WatchとGarminの比較が書いてあったら、それを枠にハメて『Apple WatchとGarmin、どっちが頑丈?』っていう具体的な質問を作る。
なるほど!でも、長い文章のどこに答えがあるか探すのって大変じゃない?
鋭いね。そこで「ガウスプーリング」っていう技術を使っている。これは、長い文章をいくつかの塊に分けて、それぞれの場所がどんな内容かを賢く見分ける手法なんだ。これで、質問にぴったりの情報を文書の中から探し出せるようになる。
ガウス……なんだか強そうな名前!それで、その10億個の宿題で勉強したAIは、本当に賢くなったの?
実験の結果、普通のやり方で学習したモデルよりも、ユーザーの質問に答える能力が大幅に上がったんだ。特に、自由な形式で回答するテストでは、他の最新の手法よりも良い成績を出したんだよ。
すごい!最初から「誰かの役に立つ」練習をしてるから、本番に強いんだね。
その通り。この研究の意義は、今まで「ただのテキスト」として捨てられていたWebの情報を、価値のある「教育用データ」に変換できることを示した点にあるんだ。
これからは、AIの勉強も「量より質」の時代になるのかな?
そうだね。ただ、課題もある。合成データを作る時に使った「先生役のAI」の癖が移っちゃう可能性とか、まだ改善の余地はあるんだ。今後はもっと多様で、間違いのないデータを作る研究が進むだろうね。
よーし、私も智也くん専用のテンプレートを作っちゃおうかな!『<食べ物>を買ってきて』とか、『<課題>を代わりにやって』とか!
それはただのパシリだろ。自分の課題くらい自分でやれ。
要点
- LLMの事前学習を、従来の「次の単語を予測する」形式ではなく、最初から「指示に対する回答」という形式で行う手法を提案した。
- 1800万件の実際のユーザーの質問を汎用的なテンプレートに変換し、それを膨大なWeb文書と組み合わせることで、10億件以上の高品質な「指示と回答」のペア(FineInstructions)を作成した。
- 文書のどの部分が質問に関連しているかを正確に特定するために、ガウスプーリングという特殊な技術を用いた埋め込みモデルを開発した。
- この合成データのみを使ってゼロから学習したモデルは、従来の事前学習を行ったモデルよりも、自由形式の回答の質を測るベンチマークで高い性能を示した。
- 事前学習の段階からユーザーの利用目的に近い形式で学習させることで、学習の効率化と性能向上を両立できることを証明した。