要点テキストから画像を生成する…
解説
智也くん!この『Chroma 1.0』って論文、タイトルがキラキラしてて気になる!これって何ができるAIなの?
ああ、それは最新の音声対話AIの論文だよ。簡単に言うと、めちゃくちゃ速く反応できて、しかも相手の声を一瞬でそっくりに真似できるモデルなんだ。
えっ、声を真似しちゃうの?それって、私が喋ったらAIも私の声で返事してくれるってこと?
そう。しかも、これまでのAIみたいに「えーっと……」って待たされることがほとんどない。1秒もかからずに返事が返ってくるんだよ。
すごーい!でも、今までのAIだって喋ってくれてたよね?何がそんなに新しいの?
いい質問だね。今までのシステムは「カスケード方式」といって、まず声を文字に起こして、それをAIが読んで、最後にまた声に変換するっていう3段階の作業をしてたんだ。これだと時間がかかるし、声の感情とか特徴が消えちゃうんだよね。
あー、伝言ゲームみたいに途中で情報が抜けちゃうんだ!
その通り。Chromaは「エンドツーエンド」といって、入り口から出口まで一気に処理するから、声のトーンや感情を保ったまま、素早く反応できるんだよ。
なるほどね!でも、どうやってそんなに速く喋れるようにしてるの?
「1:2スケジュール」っていう仕組みを使ってるんだ。AIが言葉(テキストトークン)を1つ作る間に、音のデータ(オーディオトークン)を2つ作る。これで、文章が全部完成するのを待たずに、作りながらどんどん音声を流せるんだよ。
トークン……?あ、AIが扱う最小単位のことだよね!1個の言葉に2個の音をセットにするなんて、まるでお菓子のおまけみたい!
……例えは微妙だけど、まあ効率がいいってことだね。さらに、モデルを「Reasoner(考える担当)」「Backbone(音の基礎を作る担当)」「Decoder(音を細かく整える担当)」の3つに分けて、役割分担させてるんだ。
チームプレーなんだね!それで、どれくらい本物っぽいの?
実験結果によると、人間が「これは本人の声だ」って判断する基準よりも、10%以上も高い精度で声を再現できたらしいよ。ほぼ完璧にコピーできると言ってもいい。
人間より人間っぽいってこと!?もう誰が喋ってるか分からなくなっちゃうね。
そうだね。将来的には、自分専用のパーソナルアシスタントが自分の声や家族の声で喋ってくれるようになるかもしれない。ただ、悪用される危険性もあるから、安全性の研究もセットで必要だけどね。
課題もあるんだね。でも、いつでも好きな声とリアルタイムで喋れるなんて、夢があるなあ!
これからは、もっと少ないデータで、もっと感情豊かな会話ができるようになるはずだよ。オープンソースだから、世界中の研究者がこれをベースに進化させていくだろうしね。
よし!じゃあ智也くんの声をコピーして、私の代わりに大学の出席返事をさせちゃおっと!「はい、元気です!」って!
おい、勝手に俺を大学に行かせるな。しかも俺の声で返事したら、お前が欠席なのがバレバレだろ!
要点
- Chroma 1.0は、リアルタイム性と高精度な声の複製(ボイスクローニング)を両立したオープンソースの音声対話AIモデル。
- 従来の「音声認識→テキスト生成→音声合成」という段階的な仕組み(カスケード方式)ではなく、音声から直接音声を生成する「エンドツーエンド」方式を採用し、1秒未満の低遅延を実現。
- テキスト1トークンに対して音声2トークンを生成する独自のスケジュールにより、ストリーミング再生(作りながら流すこと)を効率化している。
- わずか数秒の参照音声から、人間レベルを超える高い類似度(人間ベースラインより10.96%向上)で特定の声を再現できる。
- 40億パラメータという比較的小規模なサイズながら、強力な推論能力と自然な対話能力を維持している。