推しの声で耳かき！？普通の声からASMRを作る魔法のAI『DeepASMR』

1月 25 2026

解説

智也くん！この『DeepASMR』って論文、タイトルからして面白そう！ASMRって、あの耳元で囁かれてゾワゾワするやつだよね？

そうだね。最近はリラクゼーションや安眠のために聴く人が増えているけど、実はAIでASMRを作るのって、普通の喋り声を作るよりずっと難しいんだよ。

えっ、そうなの？AIなら何でもペラペラ喋れると思ってた！

普通の声は声帯を震わせる「有声音」がメインだけど、ASMRは声帯を震わせない「無声音」や息の音が重要なんだ。今までの技術だと、ただのノイズみたいになっちゃうことが多かったんだよね。

なるほど、あの「吐息感」が難しいんだね。で、この論文は何がすごいの？

一番のポイントは「ゼロショット」でASMRが作れることだね。つまり、その人のASMRの録音データがなくても、普通の話し声が数秒あれば、その人の声でASMRを合成できるんだ。

ええっ！じゃあ、私の普通の喋り声をちょっと聞かせるだけで、私が耳元で囁いてるみたいな音声が作れちゃうってこと！？

その通り。仕組みとしては2段階になっていて、まずLLMを使って「どういうリズムやスタイルで喋るか」というトークンを作る。次に「フローマッチング」っていう最新のデコーダを使って、その人の声の質感を乗せていくんだ。

フロー……マッチング？なんか難しそうだけど、要は「喋り方の型」と「声の素材」を分けて考えてるってことかな？

冴えてるね。専門的には「ソフト・ファクタライゼーション」って呼んでいるけど、音声トークンには「喋り方のスタイル」が強く現れて、デコーダで「声質」を補完する。この役割分担がうまくいっているから、未学習の声でもASMR化できるんだよ。

すごーい！実験の結果はどうだったの？ちゃんとゾワゾワする？

人間による評価やLLMを使ったスコアリングでも、既存の手法より圧倒的に自然で、ASMRらしいスタイルが再現できているっていう結果が出ているよ。あと、670時間分ものASMRデータセットを自分たちで作ったのも大きな貢献だね。

670時間！一生聴いてられるね。これがあれば、将来はどうなるのかな？

「オーディオ睡眠薬」として不眠症の人を助けたり、メンタルヘルスのケアに使われたりすることが期待されているよ。ただ、課題もあって、たまに元の声と少し変わっちゃう「音色漏れ」が起きることがあるんだ。そこは今後の研究課題だね。

そっかぁ。じゃあ、智也くんのいつもの厳しい説教も、このAIでASMRに変換して聴けば、ぐっすり眠れちゃうかもね！

……説教の内容をちゃんと聞いてほしいから言ってるんだけど。寝られたら意味ないだろ！

世界初のゼロショットASMR音声合成フレームワーク「DeepASMR」を提案。ターゲットのASMR音源がなくても、普通の話し声の短いサンプルだけでその人の声のASMRを生成できる。
ASMR特有の「無声音（声帯を震わせない音）」や「囁き」の再現が困難だった従来のTTSの課題を解決した。
LLMを用いた「テキストからセマンティック・トークンへの変換」と、フローマッチングを用いた「音響デコーダ」の2段階構成を採用。
離散的な音声トークンが、声の主の「声質」とASMRの「スタイル」を緩やかに分離（ソフト・ファクタライゼーション）するという知見を活用している。
670時間に及ぶ大規模な英中2言語ASMRデータセット「DeepASMR-DB」を構築し、公開した。

投稿日:AI