解説

AMI HAPPY

智也くん!この『DeepASMR』って論文、タイトルからして面白そう!ASMRって、あの耳元で囁かれてゾワゾワするやつだよね?

TOMOYA NEUTRAL

そうだね。最近はリラクゼーションや安眠のために聴く人が増えているけど、実はAIでASMRを作るのって、普通の喋り声を作るよりずっと難しいんだよ。

AMI SURPRISED

えっ、そうなの?AIなら何でもペラペラ喋れると思ってた!

TOMOYA NEUTRAL

普通の声は声帯を震わせる「有声音」がメインだけど、ASMRは声帯を震わせない「無声音」や息の音が重要なんだ。今までの技術だと、ただのノイズみたいになっちゃうことが多かったんだよね。

AMI HAPPY

なるほど、あの「吐息感」が難しいんだね。で、この論文は何がすごいの?

TOMOYA HAPPY

一番のポイントは「ゼロショット」でASMRが作れることだね。つまり、その人のASMRの録音データがなくても、普通の話し声が数秒あれば、その人の声でASMRを合成できるんだ。

AMI SURPRISED

ええっ!じゃあ、私の普通の喋り声をちょっと聞かせるだけで、私が耳元で囁いてるみたいな音声が作れちゃうってこと!?

TOMOYA NEUTRAL

その通り。仕組みとしては2段階になっていて、まずLLMを使って「どういうリズムやスタイルで喋るか」というトークンを作る。次に「フローマッチング」っていう最新のデコーダを使って、その人の声の質感を乗せていくんだ。

AMI NEUTRAL

フロー……マッチング?なんか難しそうだけど、要は「喋り方の型」と「声の素材」を分けて考えてるってことかな?

TOMOYA HAPPY

冴えてるね。専門的には「ソフト・ファクタライゼーション」って呼んでいるけど、音声トークンには「喋り方のスタイル」が強く現れて、デコーダで「声質」を補完する。この役割分担がうまくいっているから、未学習の声でもASMR化できるんだよ。

AMI HAPPY

すごーい!実験の結果はどうだったの?ちゃんとゾワゾワする?

TOMOYA NEUTRAL

人間による評価やLLMを使ったスコアリングでも、既存の手法より圧倒的に自然で、ASMRらしいスタイルが再現できているっていう結果が出ているよ。あと、670時間分ものASMRデータセットを自分たちで作ったのも大きな貢献だね。

AMI HAPPY

670時間!一生聴いてられるね。これがあれば、将来はどうなるのかな?

TOMOYA NEUTRAL

「オーディオ睡眠薬」として不眠症の人を助けたり、メンタルヘルスのケアに使われたりすることが期待されているよ。ただ、課題もあって、たまに元の声と少し変わっちゃう「音色漏れ」が起きることがあるんだ。そこは今後の研究課題だね。

AMI HAPPY

そっかぁ。じゃあ、智也くんのいつもの厳しい説教も、このAIでASMRに変換して聴けば、ぐっすり眠れちゃうかもね!

TOMOYA ANGRY

……説教の内容をちゃんと聞いてほしいから言ってるんだけど。寝られたら意味ないだろ!

要点

  • 世界初のゼロショットASMR音声合成フレームワーク「DeepASMR」を提案。ターゲットのASMR音源がなくても、普通の話し声の短いサンプルだけでその人の声のASMRを生成できる。
  • ASMR特有の「無声音(声帯を震わせない音)」や「囁き」の再現が困難だった従来のTTSの課題を解決した。
  • LLMを用いた「テキストからセマンティック・トークンへの変換」と、フローマッチングを用いた「音響デコーダ」の2段階構成を採用。
  • 離散的な音声トークンが、声の主の「声質」とASMRの「スタイル」を緩やかに分離(ソフト・ファクタライゼーション)するという知見を活用している。
  • 670時間に及ぶ大規模な英中2言語ASMRデータセット「DeepASMR-DB」を構築し、公開した。