解説

AMI HAPPY

ねえねえ智也くん!この「ReqElicitGym」って何?AIがジムに通ってムキムキになるお話?

TOMOYA NEUTRAL

そんなわけないだろ。これは「要件抽出(Requirements Elicitation)」、つまりソフトウェアを作る時に、ユーザーが何を求めているかをインタビューして聞き出す能力を鍛えるための評価環境のことだよ。

AMI SURPRISED

ようけんちゅうしゅつ……?なんか難しそう。普通に「こんなアプリ作って!」って言えばいいだけじゃないの?

TOMOYA NEUTRAL

それが難しいんだ。ユーザーは最初、自分の欲しいものをうまく言葉にできないことが多い。「株を検索してレポートを作るサイトが欲しい」と言っても、どんな検索方法か、レポートの形式はどうするか、といった細かい「潜在的な要望」が隠れているんだよ。

AMI HAPPY

あー、確かにお買い物でも「なんか可愛い服!」って言っても、人によって「可愛い」の基準が違うもんね!

TOMOYA NEUTRAL

その通り。だからAIが優秀なインタビュアーになって、隠れた要望を引き出す必要がある。でも、今まではAIがどれだけ「聞き上手」かを測る基準がバラバラで、人間が評価するしかなかったんだ。それを自動化したのがこの研究だよ。

AMI SURPRISED

へぇー!どうやって自動で評価するの?

TOMOYA NEUTRAL

「ReqElicitGym」には、101個のシナリオと、2つの役割を持つAIがいる。一つは「オラクルユーザー」といって、心の中に隠れた要望を持ったユーザー役。もう一つは「タスク評価者」で、インタビューの内容を見て、ちゃんと要望を聞き出せたか判定する審判役だね。

AMI HAPPY

AI同士でロールプレイングしてるみたい!それで、今のAIは聞き上手だったの?

TOMOYA SAD

実験の結果、最新のLLMでも「潜在的な要望」の半分も引き出せていないことがわかったんだ。特に、機能や内容については聞けるけど、「デザインの好み(スタイル)」についてはほとんど質問できていなかったらしい。

AMI SURPRISED

えー、半分もいかないんだ!AIって何でも知ってるイメージだけど、人の気持ちを汲み取るのはまだ苦手なのかな?

TOMOYA NEUTRAL

そうだね。あと、CoT(思考の連鎖)っていう、段階的に考えさせる手法を使っても、質問の効率は上がるけど、聞き出せる情報の量自体はあまり増えなかったんだ。ただ質問すればいいわけじゃなく、戦略的に深掘りする難しさが浮き彫りになったよ。

AMI HAPPY

なるほどね。でも、これが進化すれば、私が「なんかいい感じのアプリ作って!」って言うだけで、AIが「それはこういうこと?」って完璧に理解してくれるようになるかも!

TOMOYA NEUTRAL

その未来を目指すための第一歩がこの研究だよ。ただ、今のAIはまだ君の「なんかいい感じ」を解読するには修行が足りないみたいだけどね。

AMI HAPPY

じゃあ、まずは智也くんが私の「今日のランチ、なんかいい感じのもの」を当てるインタビューの練習をしてみる?

TOMOYA NEUTRAL

それは要件抽出じゃなくて、ただのわがままだろ。自分で決めろよ。

要点

  • AIによるソフトウェア開発のボトルネックが、コード生成から「ユーザーの要望を正しく聞き出すこと(要件抽出)」に移っていることを指摘。
  • AIのインタビュー能力を自動かつ客観的に評価するための環境「ReqElicitGym」を開発。
  • 101種類のシナリオ、ユーザー役のAI(Oracle User)、評価役のAI(Task Evaluator)を備え、人間を介さずに繰り返しテストが可能。
  • 最新のLLMでも、ユーザーが言葉にしていない「潜在的な要望」を半分も引き出せていないことが判明。
  • 特に「デザインの好み(スタイル)」に関する要望を引き出すのが苦手であり、今後のAI開発における重要な課題を浮き彫りにした。