解説ねえ智也、この論文のタイト…
解説

ねえねえ、智也くん!これ見て!『TOWARDS NEPALI-LANGUAGE LLMS』…なんか難しそうだけど、ネパール語のAIって書いてある!面白そう!

ああ、この論文か。確かに面白い研究だよ。簡単に言うと、ネパール語で文章を自動生成できるAIを作った、って話だ。

え、ネパール語のAI?英語や日本語のAIはよく聞くけど、ネパール語もあるんだ!でも、なんでわざわざ作る必要があるの?

良い質問だね。ネパール語は「低リソース言語」って呼ばれているんだ。話者は3200万人以上もいるのに、AIの研究に使える高品質なデータがとても少ない。それに、文法が複雑で、単語の形がくっついて変わったりするから、英語用のAIではうまく扱えないんだよ。

ふーん…確かに、日本語と英語でも全然違うもんね。でも、データが少ないのに、どうやってAIを学習させるの?

そこがこの研究の工夫ポイントだ。まず、ネパール語のニュースサイトから10.75GB分の文章を集めて、きれいに掃除した。それから、ネパール語専用の「トークナイザー」を作ったんだ。

と、とーくないざー?それって何?

AIが文章を読むとき、いきなり単語や文章全体を理解するんじゃなくて、まず小さなパーツに分解するんだ。その分解のルールブックがトークナイザーだよ。英語用のルールでネパール語を切ると変なところで切れちゃうから、ネパール語専用のルールを作ったってわけ。

なるほど!専用の道具を作ったんだね。で、そのあとは?

そのトークナイザーと集めたデータを使って、GPT-2っていう有名な文章生成AIの仕組みをベースに学習させた。でも、普通にやるとメモリが足りなくなるから、「FlashAttention」っていう省メモリ技術を使ったり、学習の進め方をGPT-3みたいに賢く調整したりしたんだ。

すごい…色々組み合わせてるんだね。で、そのAI、どれくらい賢くなったの?テストみたいなのはしたの?

したよ。AIがどれだけ自信を持って次の単語を予測できるかを測る「パープレキシティ」っていう指標があるんだけど、それが21.80になった。これは、限られたデータと計算資源で学習させたネパール語の生成モデルとしては、とても良い結果だ。実際、ニュース記事みたいな一貫性のある文章を生成できるようになったんだ。

へえ!すごいじゃん!でもさ、これができたって、何がすごいの?私たちの生活に関係ある?

大きな意義があるよ。まず、ネパール語を話す人たちが、自分たちの言語でAIアシスタントを使ったり、文章を自動翻訳したり、教育や行政の書類を自動生成したりできる未来の基盤になる。あと、この研究の方法論は、他の低リソース言語、例えば地方の方言や少数言語のAI開発にも応用できる可能性があるんだ。

確かに!世界中の色んな言葉でAIが使えるようになったら、もっと便利で公平な世の中になるかもね。でも、まだ課題とかあるんでしょ?

そうだね。使ったデータは主にニュース記事だから、会話やスラング、専門用語にはまだ弱いかもしれない。あと、もっと長く複雑な文章を生成するのは難しい。将来は、もっと多様なデータで学習させたり、人間の指示に従って文章を書くように調整したりする研究が必要だと思う。

なるほどー。でも、最初の一歩としてはすごく立派だね!私も、AIって英語だけのものだと思ってたから、目からウロコだよ。…ねえ、これが完成したら、ネパール語で私のレポート書いてもらおうかな!

…亜美さん、それはまずいって。そもそも君の専攻は日本文学だろ。
要点
ネパール語は3200万人以上に話されるが、複雑な文法や形態、高品質なデータの不足から「低リソース言語」とされ、AI研究が遅れている。
既存の研究は文章理解(BERTなど)が中心で、文章生成(GPTなど)のモデルはほとんどなかった。
本研究では、GPT-2のアーキテクチャを基に、ネパール語専用のトークナイザー(BPE、語彙サイズ16k)を作成し、10.75GBのネパール語データで学習させた。
学習効率化のため、GPT-3から着想を得た学習率スケジュールやバッチサイズの調整、省メモリな注意機構「FlashAttention」を採用した。
2エポックの学習後、最終的なパープレキシティ(文章生成の自信度、低いほど良い)は21.80を達成し、一貫性のあるネパール語ニュース記事の生成が可能になった。
この研究は、限られた計算資源でも特定の言語に特化した高性能な生成AIを作れる可能性を示し、ネパール語のデジタル化やAI応用の基盤となる。