解説

AMI HAPPY

ねえねえ智也くん!この『Zonkey(ゾンキー)』っていう論文のタイトル、すっごく可愛くない?シマウマとロバのハーフの話かな?

TOMOYA NEUTRAL

いや、動物の話じゃないよ。これはAIが文字をどう区切って、どうやって文章を作るかっていう、かなり硬派な研究なんだ。ちなみに名前の由来は階層構造とかから来てるんだろうけど、中身は全然可愛くないぞ。

AMI SURPRISED

えー、そうなの?でもAIが文字を区切るなんて、普通にやってることじゃないの?

TOMOYA NEUTRAL

そこが問題なんだ。今のLLMは『BPE』っていう決まったルールで文字を区切ってるんだけど、これは一度決めたら変えられない『固定ルール』なんだよ。だから、ノイズ混じりの文章とか専門用語に弱いっていう弱点がある。

AMI HAPPY

なるほど!お料理で例えると、どんな食材も同じ型でしか切れないみたいな感じ?

TOMOYA NEUTRAL

……まあ、例えとしては悪くないな。この論文のすごいところは、その『切り方』自体をAIに学習させたことなんだ。これを『微分可能なトークナイザー』って呼んでいる。

AMI SURPRISED

びぶん……?数学の授業で聞いたことある気がするけど、それがどう関係あるの?

TOMOYA NEUTRAL

AIの世界で『微分可能』っていうのは、『学習によって改善できる』って意味だと思っていい。従来の切り方は学習できなかったけど、Zonkeyの『Segment Splitter』は、どこで区切るのが一番効率的かを自分で学んでいくんだ。

AMI HAPPY

へぇー!賢い!でも、どこで切るか迷っちゃったりしないのかな?「ここは単語の終わりかも……?」みたいな。

TOMOYA NEUTRAL

鋭いな。そこで出てくるのが『Probabilistic Attention(確率的アテンション)』だ。これは「この文字は存在する確率が何%」っていう情報を持ちながら計算する仕組みなんだよ。曖昧な状態のまま計算を続けられるから、無理やり区切らなくて済むんだ。

AMI SURPRISED

「たぶんここが区切り!」っていうふわっとした状態で進めるんだね。でも、どうやって文章を作るの?

TOMOYA NEUTRAL

ここでは『拡散モデル』を使っている。画像生成AIみたいに、最初はバラバラのノイズから始めて、それを少しずつ綺麗な文字の並びに直していくんだ。しかも、文字から単語、単語から文章っていう風に、階層的に情報を圧縮して処理するから効率がいい。

AMI HAPPY

文字をギュッとして、ノイズから文章を削り出す感じかぁ。それで、実験の結果はどうだったの?

TOMOYA NEUTRAL

Wikipediaで学習させたら、面白いことが起きたんだ。AIに教えてないのに、スペースのところで単語を区切ったり、ピリオドのところで文章を区切ったりするようになった。つまり、言語のルールを勝手に見つけ出したんだよ。

AMI HAPPY

すごーい!天才じゃん!これがあれば、どんな言葉でも完璧に理解できちゃうね!

TOMOYA NEUTRAL

まあ、まだ課題はあるけどな。今はまだ短い文章が中心だし、計算コストもかかる。でも、この『全部を学習可能にする』っていうアプローチは、将来的に未知の言語や、めちゃくちゃな誤字脱字がある文章を理解するのにすごく役立つはずだ。

AMI HAPPY

未来のAIは、私の誤字だらけのメッセージも完璧に解読してくれるってことだね!

TOMOYA NEUTRAL

それはAIの性能以前に、亜美がちゃんと打つ努力をしたほうが早いと思うけどな。

AMI HAPPY

あはは、手厳しい!じゃあ、お礼に本物のゾンキーを見に動物園に行こうよ!

TOMOYA NEUTRAL

……論文の話をしてたはずなのに、結局そこに戻るのかよ。まあ、息抜きにはいいかもしれないけどな。

要点

  • 従来のLLMで使われていた固定的なトークナイザー(BPEなど)の制約を排除し、学習可能な『微分可能なトークナイザー(Segment Splitter)』を導入した。
  • 『Probabilistic Attention(確率的アテンション)』という新機構により、可変長のシーケンスをソフトに扱いながら、モデル全体を端から端まで勾配で最適化できるようになった。
  • 文字レベルから単語、文章へと情報を階層的に圧縮し、潜在空間で拡散モデル(DDMM)を用いてノイズからテキストを生成する仕組みを構築した。
  • Wikipediaを用いた実験では、明示的な指示なしにスペースを単語の区切り、ピリオドを文章の区切りとして認識する『言語的構造の創発』が確認された。