ねえ智也くん、この論文のタイト…
解説
智也くん!この『DeepASMR』って論文、タイトルからして面白そう!ASMRって、あの耳元で囁かれてゾワゾワするやつだよね?
そうだね。最近はリラクゼーションや安眠のために聴く人が増えているけど、実はAIでASMRを作るのって、普通の喋り声を作るよりずっと難しいんだよ。
えっ、そうなの?AIなら何でもペラペラ喋れると思ってた!
普通の声は声帯を震わせる「有声音」がメインだけど、ASMRは声帯を震わせない「無声音」や息の音が重要なんだ。今までの技術だと、ただのノイズみたいになっちゃうことが多かったんだよね。
なるほど、あの「吐息感」が難しいんだね。で、この論文は何がすごいの?
一番のポイントは「ゼロショット」でASMRが作れることだね。つまり、その人のASMRの録音データがなくても、普通の話し声が数秒あれば、その人の声でASMRを合成できるんだ。
ええっ!じゃあ、私の普通の喋り声をちょっと聞かせるだけで、私が耳元で囁いてるみたいな音声が作れちゃうってこと!?
その通り。仕組みとしては2段階になっていて、まずLLMを使って「どういうリズムやスタイルで喋るか」というトークンを作る。次に「フローマッチング」っていう最新のデコーダを使って、その人の声の質感を乗せていくんだ。
フロー……マッチング?なんか難しそうだけど、要は「喋り方の型」と「声の素材」を分けて考えてるってことかな?
冴えてるね。専門的には「ソフト・ファクタライゼーション」って呼んでいるけど、音声トークンには「喋り方のスタイル」が強く現れて、デコーダで「声質」を補完する。この役割分担がうまくいっているから、未学習の声でもASMR化できるんだよ。
すごーい!実験の結果はどうだったの?ちゃんとゾワゾワする?
人間による評価やLLMを使ったスコアリングでも、既存の手法より圧倒的に自然で、ASMRらしいスタイルが再現できているっていう結果が出ているよ。あと、670時間分ものASMRデータセットを自分たちで作ったのも大きな貢献だね。
670時間!一生聴いてられるね。これがあれば、将来はどうなるのかな?
「オーディオ睡眠薬」として不眠症の人を助けたり、メンタルヘルスのケアに使われたりすることが期待されているよ。ただ、課題もあって、たまに元の声と少し変わっちゃう「音色漏れ」が起きることがあるんだ。そこは今後の研究課題だね。
そっかぁ。じゃあ、智也くんのいつもの厳しい説教も、このAIでASMRに変換して聴けば、ぐっすり眠れちゃうかもね!
……説教の内容をちゃんと聞いてほしいから言ってるんだけど。寝られたら意味ないだろ!
要点
- 世界初のゼロショットASMR音声合成フレームワーク「DeepASMR」を提案。ターゲットのASMR音源がなくても、普通の話し声の短いサンプルだけでその人の声のASMRを生成できる。
- ASMR特有の「無声音(声帯を震わせない音)」や「囁き」の再現が困難だった従来のTTSの課題を解決した。
- LLMを用いた「テキストからセマンティック・トークンへの変換」と、フローマッチングを用いた「音響デコーダ」の2段階構成を採用。
- 離散的な音声トークンが、声の主の「声質」とASMRの「スタイル」を緩やかに分離(ソフト・ファクタライゼーション)するという知見を活用している。
- 670時間に及ぶ大規模な英中2言語ASMRデータセット「DeepASMR-DB」を構築し、公開した。