要点テキストから画像を生成する…
解説
ねえねえ智也くん!この『Beyond IVR』っていう論文のタイトル、かっこよくない?IVRって、あの電話した時に『1番を押してください』って言われるやつでしょ?
お、よく知ってるね。そう、あのガチガチに決まったメニューのことだよ。でも、あれって融通が利かなくてイライラするだろ?だから最近はLLMを使って、もっと自然に会話できるエージェントを作ろうとしてるんだ。
あー、確かに!でも、AIが勝手に『あなたのローン、全額免除しちゃいます!』とか言い出したら、会社が潰れちゃうよね?
まさにそこが問題なんだ。LLMは柔軟だけど、ビジネス上のルール、つまりSOP(標準作業手順書)を守らせるのが難しい。この論文は、AIがちゃんとルール通りに動いているかを厳しくチェックするためのテストを作ったっていう内容だよ。
へぇー!そのテストの名前は何ていうの?
『JourneyBench(ジャーニーベンチ)』っていうんだ。カスタマーサポートのやり取りをグラフ構造にして、AIが正しいルートを通って解決までたどり着けるかを評価するんだよ。あと、UJCSっていう新しい採点方法も提案してる。
ゆーじぇーしーえす?何それ、美味しいの?
食べられないよ。User Journey Coverage Scoreの略で、単に『解決したか』だけじゃなくて、『必要な手順を全部飛ばさずにやったか』を測るスコアだね。例えば、本人確認をせずに返金しちゃったら、結果はOKでも手順としては0点になるんだ。
なるほど、厳しい先生みたいなスコアだね!それで、どうすればAIはルールを守れるようになるの?
論文では『DPA(動的プロンプト・エージェント)』っていうやり方を推奨してる。普通のAI(SPA)は最初に全部のルールを渡されるから混乱しちゃうんだけど、DPAは『今は本人確認のステップだから、このルールだけ見てね』って、状況に合わせて指示を出し分けるんだ。
あ、それ私にも必要かも!一度にたくさん言われると忘れちゃうもん。実験の結果はどうだったの?
面白い結果が出てるよ。DPAを使うと、賢いけど高いGPT-4oよりも、安くて小さいGPT-4o-miniの方がルールをしっかり守れたんだ。仕組みさえしっかりしていれば、モデルの大きさは関係ないってことだね。
えーっ!小さい子が大きい子に勝っちゃうなんて、ジャイアントキリングじゃん!これって、もう実際のコールセンターで使われてるの?
実際に1日6,000件以上の電話を処理してる現場でも導入されてるらしいよ。ただ、まだ課題もあって、AIが勝手にユーザーの情報を捏造しちゃう『ハルシネーション』が起きることもあるんだ。そこをどう防ぐかが今後の研究課題だね。
ハルシネーションかぁ……。よし、私もDPAを使って、智也くんの『おやつは1日1個まで』っていうルールを、状況に合わせて『今は疲れてるから3個まで』に書き換えてもらうことにするね!
それはルールを守るための仕組みじゃなくて、ただの改ざんだろ!いい加減にしろ。
要点
- 従来のカスタマーサポート(IVR)は柔軟性に欠けるが、LLMエージェントはビジネスルール(SOP)を無視して勝手な行動をとるリスクがある。
- ビジネスルールへの遵守度を評価するための新しいベンチマーク「JourneyBench」を提案した。
- エージェントが正しい手順でタスクを完了したかを測定する新指標「UJCS(User Journey Coverage Score)」を導入した。
- 指示を固定するSPAよりも、状況に応じて指示を切り替えるDPA(動的プロンプト・エージェント)の方が、ルール遵守性能が大幅に高いことを示した。
- 適切な制御(DPA)を行えば、GPT-4o-miniのような小型モデルでも、制御なしのGPT-4o以上の性能を発揮できることがわかった。