要点テキストから画像を生成する…
解説
ねえねえ智也くん!この論文のタイトル、「活性化ベクトルの代数で性格をコントロールする」って書いてあるけど、どういうこと?AIが数学のテストでも受けるの?
いや、そうじゃないよ。これはAIの「性格」を、言葉で指示するんじゃなくて、数学的な「ベクトル」の計算で直接書き換えちゃおうっていう研究なんだ。
ええっ、性格を計算で?「優しい」+「元気」=「最高の友達」みたいな感じ?
まさにその通り。今まではAIに「あなたは明るい性格です」ってプロンプトで教えたり、膨大なデータで再学習させたりしてたんだけど、それだと不安定だったりコストがかかりすぎたりするんだよね。
確かに、たまにAIがキャラ崩壊することあるもんね。でも、どうやって計算するの?
まず「PERSONA-BASE」っていう段階で、AIの頭の中(活性化空間)から「外向性」とか「誠実性」といった性格の成分を「ベクトル」として取り出すんだ。心理学で有名な「ビッグファイブ」っていう5つの指標を使っているよ。
ビッグファイブ!聞いたことある!でも、それを取り出した後、どうやって混ぜるの?
それが「PERSONA-ALGEBRA」だね。取り出したベクトルを足せば性格が混ざるし、引けばその要素を消せる。さらに、数字を掛ければ性格の「強さ」も調整できるんだ。例えば「外向性ベクトル」に2を掛ければ、超ハイテンションなAIになる。
すごーい!ボリューム調整みたいに性格を変えられるんだ!でも、会話の途中で急に性格が変わったりしないの?
そこが「PERSONA-FLOW」のすごいところで、会話の流れを読み取って、その場にふさわしい性格ベクトルをリアルタイムで合成するんだ。だから、ずっと自然なやり取りができるようになる。
賢い!でも、本当にそんなにうまくいくのかなぁ?計算だけで作った性格なんて、偽物っぽくない?
実験結果を見ると、驚くことに、わざわざ追加学習(ファインチューニング)をして性格を叩き込んだモデルと、性能がほぼ変わらなかったんだ。しかも、いろんな種類のAIモデルで90%以上の勝率で「自然な性格だ」って評価されてるよ。
ええっ!学習しなくていいなら、めちゃくちゃ楽じゃん!これがあれば、私の理想の王子様AIもすぐ作れるってこと?
理論上は可能だね。ただ、課題もあるんだ。例えば「誠実さ」みたいな、AIが元々安全性のために叩き込まれている要素は、ベクトルでさらに強めようとしても「もう十分誠実だよ!」って感じで、あまり変化しなかったりするらしい。
あはは、真面目すぎるのも困りものだね。じゃあ、将来はもっと複雑な性格、例えば「ツンデレ」とか「おっちょこちょい」もベクトルで作れるようになるのかな?
そうだね。性格の構造が数学的に解明されれば、もっと細かく、かつ効率的にAIの振る舞いを制御できるようになるはずだよ。教育や介護、エンタメ分野での応用が期待されているんだ。
よし!じゃあまずは、智也くんの「真面目すぎるベクトル」をマイナス100倍して、ギャグ連発マシーンに改造しちゃおうかな!
勝手に人の性格をベクトル演算するな。それに、俺はAIじゃないから書き換えられないよ。
要点
- LLMの性格を、追加学習(ファインチューニング)や複雑なプロンプトなしで、モデル内部の「活性化ベクトル」を操作することで制御する手法「PERSONA」を提案。
- 性格特性(ビッグファイブ:外向性、開放性など)がモデルの表現空間内でほぼ直交するベクトルとして存在することを発見し、これらを数学的に足し引き(ベクトル代数)することで性格を合成・調整できる。
- 提案手法は、追加学習を行ったモデルとほぼ同等の高い精度(PersonalityBenchで9.60/10)を達成しつつ、計算コストを大幅に削減した。
- 会話の文脈に合わせてリアルタイムに性格を変化させる「PERSONA-FLOW」や、動的な性格変化を評価する新ベンチマーク「PERSONA-EVOLVE」を導入。
- 特定の性格(誠実性など)はモデルの学習段階で既に飽和しているため強化が難しいといった、モデルの内部表現に関する興味深い知見も得られた。