要点テキストから画像を生成する…
解説
ねえねえ智也くん!『Youtu-LLM』っていう論文を見つけたんだけど、これってYouTubeを自動で見てくれるAIのこと?
いや、名前は似てるけど関係ないよ。これはTencentのYoutu Labが開発した、すごく賢くてコンパクトなAIモデルについての報告書だね。
コンパクトなのに賢いの?それって、小さいのに力持ちなアリさんみたいな感じ?
例えは悪くないね。普通、AIを賢くしようとするとサイズが巨大になっちゃうんだけど、これは約20億パラメータっていう、スマホでも動かせそうなサイズで驚くほどの性能を出してるんだ。特に『エージェント能力』がすごいんだよ。
エージェント……?映画のスパイみたいな、かっこいい任務をこなしてくれるの?
スパイじゃないって。AIにおけるエージェント能力っていうのは、ただ質問に答えるだけじゃなくて、自分で計画を立てて、道具を使いこなして、失敗したら反省してやり直す、っていう『自律的な行動力』のことだよ。
へぇー!自分で反省までしちゃうんだ。私よりしっかりしてるかも……。でも、どうしてそんなに小さいのに賢くなれたの?
秘密は3つある。1つ目は『MLA』っていう効率的な仕組みを使っていること。これで、128k……つまり本数冊分くらいの長い文章を一度に読み込んでも、メモリを全然食わないんだ。
128k!私の記憶力よりずっと長持ちだね。2つ目は?
2つ目は学習の順番だ。11兆トークンっていう途方もない量のデータを使ってるんだけど、最初は『常識』、次に『理系知識(STEM)』、最後に『エージェントとしての動き方』っていう風に、段階的に教育してるんだよ。
なるほど、まずは幼稚園、次に大学、最後に社会人研修って感じだね!わかりやすい!
その通り。そして3つ目が一番重要で、『Agentic-CoT』っていう独自の考え方を叩き込んでるんだ。問題を解くときに、いきなり答えを出さずに『分析・計画・実行・内省・要約』の5つのステップを必ず踏むように訓練されてるんだよ。
内省って、具体的に何をするの?「あー、さっきの計算間違えちゃった、てへぺろ」みたいな?
……まあ、ニュアンスは近いかな。自分の出した答えが正しいかチェックして、矛盾があれば修正するプロセスだね。このおかげで、数学やプログラミングみたいな複雑な問題でもミスが激減するんだ。
すごーい!で、実際どれくらい強いの?他のAIと戦わせたりしたのかな?
色んなテストをしてるよ。同じくらいのサイズのモデルの中では世界トップクラスの成績だし、エージェント能力に関しては、もっとずっと巨大なモデルに勝っちゃうこともあるんだ。図1を見ればわかるけど、コスパが異常に高いんだよ。
小さいのにジャイアントキリングしちゃうんだね!これがあれば、将来はどうなるの?
このモデルの意義は、高性能なAIを動かすのに巨大なサーバーがいらなくなることだね。スマホやパソコンの中で、自分専用の超優秀な秘書がサクサク動く未来が見えてくる。複雑な調べ物や仕事の段取りを全部任せられるようになるかもね。
夢が広がるね!でも、弱点とかはないの?
もちろんあるよ。まだ20億パラメータだから、知識の絶対量では超巨大モデルには勝てないし、もっと複雑なマルチステップのタスクでは限界が来ることもある。これからは、このエージェント能力をどうやってさらにスケールアップさせるかが研究の焦点になるだろうね。
そっかぁ。じゃあ、私も負けないように『Ami-LLM』として、毎日おやつの計画と反省を繰り返して成長しなきゃ!
おやつの計画にエージェント能力を使うな!もっと他に役立てるべきことがあるだろ!
要点
- Youtu-LLMは、約20億(2B)パラメータという軽量サイズながら、高度な「エージェント能力(自律的に考えて行動する力)」を持つ言語モデルである。
- MLA(Multi-Latent Attention)という効率的なアーキテクチャを採用し、128kという非常に長い文脈を少ないメモリで処理できる。
- 11兆トークンという膨大なデータを用い、「常識→STEM(理系知識)→エージェント能力」という段階的なカリキュラム学習を行っている。
- 「Agentic-CoT」という独自の思考フレームワークを導入し、分析・計画・実行・内省・要約の5ステップで論理的に問題を解決する。
- 評価実験では、同サイズの既存モデルを大幅に上回り、一部のタスクではより巨大なモデルに匹敵する性能を示した。