小さくても超天才！？50億の頭脳で巨大AIを負かす『DeepGen 1.0』が凄すぎる！

2月 13 2026

解説

ねえねえ智也くん！この『DeepGen 1.0』って論文の画像、めちゃくちゃ綺麗じゃない？これ、AIが描いたの？

そうだよ。これは画像を作るだけじゃなくて、指示通りに画像を書き換えたり、文字を正確に入れたりもできる最新のモデルなんだ。

へぇー！でも最近のAIって、すっごく頭が良くなる代わりに、体がどんどん巨大化してるって聞いたよ？これもやっぱり、お相撲さんみたいに大きいの？

そこがこの論文の面白いところでね。普通、これくらいの性能を出すには800億個とかのパラメータ……つまりAIの脳細胞みたいなものが必要なんだけど、これはたった50億個しかないんだ。16分の1以下のサイズなのに、巨大なモデルより賢いんだよ。

えっ、ダイエット成功しすぎじゃない！？なんでそんなに小さくて賢いの？脳みそに何か秘密があるの？

鋭いね。このモデルは、VLMっていう「目と耳を持つ脳」と、DiTっていう「絵を描く職人」を合体させてるんだ。特に『Stacked Channel Bridging（SCB）』っていう仕組みが肝なんだよ。

すたっくど……？横文字は苦手だよー！簡単に教えて！

ごめん。簡単に言うと、脳（VLM）のいろんな深さの層から情報をまとめて職人（DiT）に伝える仕組みだよ。浅い層からは細かい見た目の情報を、深い層からは難しい意味の情報を取ってくるんだ。さらに『think tokens』っていう、AIに「よく考えろ」って促す特別な信号も混ぜてるんだよ。

なるほど！「よく見て、よく考えて描け！」って職人さんにハッパをかけてる感じだね！

まさにそんな感じ。学習方法も工夫されていて、まずは脳と職人の息を合わせる練習をして、次にいろんな仕事を覚えさせて、最後に強化学習で「人間が喜ぶ絵」を徹底的に叩き込んでるんだ。

スパルタ教育だ……！で、その結果はどうだったの？やっぱりすごいの？

驚異的だよ。画像編集のテストでは、270億パラメータもある有名なモデルに37％も差をつけて勝っちゃったんだ。文字を入れる能力も高いし、複雑な指示もちゃんと理解できる。

37％も！？下克上だね！これがあれば、私のスマホでもサクサク画像が作れるようになるのかな？

そうだね。モデルが軽いってことは、普通のパソコンやデバイスでも動かしやすくなるってことだから、AIの民主化に大きく貢献するはずだよ。ただ、まだ完璧じゃなくて、もっと複雑な推論が必要な場面では限界もあるみたいだけどね。

これからは「大きいことはいいことだ」じゃなくて「小さくて賢い」が流行るんだね！

効率化は研究の大きなトレンドだからね。少ないデータと小さなサイズでどこまで行けるか、この論文はその可能性を示したんだ。

よし！私もその『think tokens』を頭に注入して、明日のテストで100点取っちゃおうかな！

亜美さんの場合は、トークンを入れる前にまず教科書を開くっていう『学習フェーズ』が圧倒的に足りてないと思うけど。

DeepGen 1.0は、わずか50億（5B）パラメータという軽量なサイズでありながら、800億（80B）規模の巨大モデルを凌駕する性能を持つ画像生成・編集モデルである。
VLM（視覚言語モデル）を「理解の脳」、DiT（Diffusion Transformer）を「生成の腕」として組み合わせた統合アーキテクチャを採用している。
新技術「Stacked Channel Bridging (SCB)」により、VLMの複数レイヤーから情報を抽出し、さらに「think tokens（思考トークン）」を注入することで、複雑な指示への推論能力を高めている。
アライメント学習、教師あり微調整（SFT）、そして独自の強化学習（MR-GRPO）という3段階のデータ中心の学習戦略により、少ないデータ量で高品質な出力を実現した。
画像生成だけでなく、高度な画像編集や正確なテキスト描画（文字入れ）も一つのモデルで完結できる点が画期的である。

投稿日:AI