要点テキストから画像を生成する…
解説
ねえねえ智也くん!この「ReqElicitGym」って何?AIがジムに通ってムキムキになるお話?
そんなわけないだろ。これは「要件抽出(Requirements Elicitation)」、つまりソフトウェアを作る時に、ユーザーが何を求めているかをインタビューして聞き出す能力を鍛えるための評価環境のことだよ。
ようけんちゅうしゅつ……?なんか難しそう。普通に「こんなアプリ作って!」って言えばいいだけじゃないの?
それが難しいんだ。ユーザーは最初、自分の欲しいものをうまく言葉にできないことが多い。「株を検索してレポートを作るサイトが欲しい」と言っても、どんな検索方法か、レポートの形式はどうするか、といった細かい「潜在的な要望」が隠れているんだよ。
あー、確かにお買い物でも「なんか可愛い服!」って言っても、人によって「可愛い」の基準が違うもんね!
その通り。だからAIが優秀なインタビュアーになって、隠れた要望を引き出す必要がある。でも、今まではAIがどれだけ「聞き上手」かを測る基準がバラバラで、人間が評価するしかなかったんだ。それを自動化したのがこの研究だよ。
へぇー!どうやって自動で評価するの?
「ReqElicitGym」には、101個のシナリオと、2つの役割を持つAIがいる。一つは「オラクルユーザー」といって、心の中に隠れた要望を持ったユーザー役。もう一つは「タスク評価者」で、インタビューの内容を見て、ちゃんと要望を聞き出せたか判定する審判役だね。
AI同士でロールプレイングしてるみたい!それで、今のAIは聞き上手だったの?
実験の結果、最新のLLMでも「潜在的な要望」の半分も引き出せていないことがわかったんだ。特に、機能や内容については聞けるけど、「デザインの好み(スタイル)」についてはほとんど質問できていなかったらしい。
えー、半分もいかないんだ!AIって何でも知ってるイメージだけど、人の気持ちを汲み取るのはまだ苦手なのかな?
そうだね。あと、CoT(思考の連鎖)っていう、段階的に考えさせる手法を使っても、質問の効率は上がるけど、聞き出せる情報の量自体はあまり増えなかったんだ。ただ質問すればいいわけじゃなく、戦略的に深掘りする難しさが浮き彫りになったよ。
なるほどね。でも、これが進化すれば、私が「なんかいい感じのアプリ作って!」って言うだけで、AIが「それはこういうこと?」って完璧に理解してくれるようになるかも!
その未来を目指すための第一歩がこの研究だよ。ただ、今のAIはまだ君の「なんかいい感じ」を解読するには修行が足りないみたいだけどね。
じゃあ、まずは智也くんが私の「今日のランチ、なんかいい感じのもの」を当てるインタビューの練習をしてみる?
それは要件抽出じゃなくて、ただのわがままだろ。自分で決めろよ。
要点
- AIによるソフトウェア開発のボトルネックが、コード生成から「ユーザーの要望を正しく聞き出すこと(要件抽出)」に移っていることを指摘。
- AIのインタビュー能力を自動かつ客観的に評価するための環境「ReqElicitGym」を開発。
- 101種類のシナリオ、ユーザー役のAI(Oracle User)、評価役のAI(Task Evaluator)を備え、人間を介さずに繰り返しテストが可能。
- 最新のLLMでも、ユーザーが言葉にしていない「潜在的な要望」を半分も引き出せていないことが判明。
- 特に「デザインの好み(スタイル)」に関する要望を引き出すのが苦手であり、今後のAI開発における重要な課題を浮き彫りにした。