ねえ智也くん、この論文のタイト…
解説
ねえねえ智也くん!この『How2Everything』っていう論文、タイトルがすごくない?「何でもやり方を教えちゃう」ってこと?
まあ、あながち間違いじゃないよ。これはAIが「手順」を正しく生成できるようにするための研究なんだ。例えば「蛇口の直し方」とか「確定申告のやり方」とかね。
へぇー!でもAIって今でも教えてくれるよね?「カレーの作り方教えて」って言ったらすぐ答えてくれるし。
そこが問題なんだ。今のAIはそれっぽく答えるのは得意だけど、実は大事なステップが抜けていたり、順番がめちゃくちゃだったりすることがある。現実の世界で手順を間違えると、取り返しのつかないことになるだろ?
確かに!ケーキを焼くのに「オーブンに入れる」を忘れたら、ただの甘いドロドロだもんね。それで、この論文はどうやって解決したの?
まず「How2Mine」っていう仕組みを作って、ウェブ上の約100万ページから35万件もの手順を自動で掘り出したんだ。料理だけじゃなくて、法律やIT、DIYとか14のジャンルを網羅してる。
マイニング……!智也くん、ついにAIにツルハシを持たせてネットの海を掘らせたのね!?
物理的に掘るわけじゃないよ。プログラムで必要な情報を抽出するってこと。次に、AIが作った手順が正しいかを判定する「How2Score」っていう評価方法を考えたんだ。特に「致命的な失敗(Critical Failure)」がないかを厳しくチェックする。
致命的な失敗?なんだか怖そう……。
例えば「共有名義のマンションを売る手順」で、「他の所有者に通知して30日間待つ」っていう法律上の必須ステップを飛ばしたら、その手順はゴミ同然だよね。そういう「目的が達成できなくなるミス」を見つけるんだ。
なるほど!でも、そんな難しいチェック、誰がやるの?智也くんが寝ないでやるの?
いや、僕じゃなくて「How2Judge」っていう専用のAIモデルにやらせるんだ。賢いAIの判断基準を、小さくて扱いやすいモデルに覚え込ませた(蒸留した)ものだよ。これで安く、速く、正確に評価できるようになったんだ。
へぇー、賢いAIが先生になって、小さいAIを育てたんだね!それで、結果はどうだったの?
この評価を使って強化学習(RL)をしたら、手順作成の能力が10ポイント以上も上がったんだ。強化学習っていうのは、良い回答をしたら報酬をあげることで、AIをどんどん賢くする手法のことだよ。しかも、他のテストの点数も落ちなかった。
すごい!手順が得意になっても、他のことがバカにならなかったんだね。これがあれば、将来は何でもAIに聞けば完璧にこなせるようになるのかな?
その可能性はあるね。ただ、まだ課題もある。今はテキストベースの手順だけだけど、実際には画像や動画が必要なこともあるし、現実世界でロボットが動くための計画立案にどう繋げるかっていう研究も必要だ。
そっかぁ。でも、これで私の「朝寝坊せずに大学に行く手順」もAIに作ってもらえば完璧だね!
それは手順の問題じゃなくて、亜美さんのやる気の問題だと思うけど……。
要点
- ウェブ上の膨大なページから「手順(ハウツー)」を自動で抽出・整理するフレームワーク「How2Everything」を開発した。
- 35万件以上の手順データを収集する「How2Mine」により、料理から法律手続きまで幅広い分野をカバーした。
- AIが生成した手順に「致命的な欠陥」がないかを判定する評価手法「How2Score」と、そのための軽量モデル「How2Judge」を提案した。
- 収集したデータを用いた強化学習(RL)により、他の能力を損なうことなく、手順作成の正確性を大幅に向上させることに成功した。