解説

AMI HAPPY

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『LINEAR PERSONALITY PROBING AND STEERING IN LLMS: A BIG FIVE STUDY』って。なんかAIの性格を調べる研究みたい!

TOMOYA NEUTRAL

ああ、その論文か。確かに面白い研究だよ。要するに、AIのチャットボットが持っている「性格っぽいもの」を、心理学の理論を使って計測したり、ちょっと操作したりできるかどうかを調べたんだ。

AMI SURPRISED

AIに性格ってあるの?プログラムでしょ?

TOMOYA NEUTRAL

厳密な意味での人間のような性格があるわけじゃないけど、ユーザーから見ると、ChatGPTは親切でおせっかいな感じがするし、Claudeは控えめで丁寧な感じがするよね?そういう一貫した振る舞いの傾向のことを、ここでは「性格」って呼んでいるんだ。

AMI SURPRISED

あー、確かに!でも、それってプロンプトで「優しくして」って書けば変わるんじゃないの?

TOMOYA NEUTRAL

それが問題で、プロンプトで性格を変えようとすると、すごく脆くて、ちょっとした言い回しの違いで全然違う反応をしたり、ユーザーが簡単にプロンプトを書き換えられちゃうんだ。かといって、モデル自体を学習し直すのはめちゃくちゃお金と時間がかかる。

AMI HAPPY

なるほど…じゃあ、その中間の方法を探してるんだね。で、この論文は何をしたの?

TOMOYA NEUTRAL

心理学でよく使われる「ビッグファイブ」って性格の分類法があるんだ。外向性、情緒安定性、誠実性、協調性、開放性の5つの軸で性格を測る方法さ。この研究では、まずAIに『ソプラノズ』のトニー・ソプラノや『ハリー・ポッター』の登場人物みたいな、たくさんの架空のキャラクターの性格を、このビッグファイブの質問票に答えさせることで再現させたんだ。

AMI SURPRISED

え、AIがキャラクターの性格診断を受けるの?面白い!

TOMOYA NEUTRAL

そう。そして、そのキャラクターの性格でAIが質問に答えている時の、AIの脳みそにあたる部分…「隠れ層の活性化」っていう数値のパターンを記録したんだ。外向性が高いキャラクターが答えている時と、低いキャラクターが答えている時とで、活性化のパターンがどう違うかを。

AMI SURPRISED

で、違いはあったの?

TOMOYA NEUTRAL

あった。で、その違いが実は「線形的」、つまり単純な足し算引き算で表せるような方向に沿って変化していることを発見したんだ。例えば「外向性」という特性は、活性化空間の中の特定の「方向ベクトル」で表現できるってこと。

AMI SURPRISED

方向ベクトル…?難しくなってきたな。要するに、AIの脳内マップで「外向性が高い方向」が決まってるってこと?

TOMOYA NEUTRAL

その通り!亜美さん、鋭いね。で、この方向が分かると、二つのことができるようになるんだ。一つは「プローブ」:AIが今、外向的な答えをしようとしているかどうかを、その方向への活性化の大きさで計測できる。もう一つは「ステアリング」:AIが答えを生成する時に、この外向性の方向に活性化をちょっと足しちゃうことで、答えをより外向的にさせることができるかもしれない。

AMI EXCITED

すごい!AIの性格をリアルタイムで調整できるってこと?実験の結果はどうだったの?

TOMOYA NEUTRAL

結果は少し複雑でね。「プローブ」として性格を検出する方は、かなりうまくいった。AIが今どの性格傾向で答えようとしているか、高い精度で当てられたんだ。

AMI HAPPY

やった!で、「ステアリング」の方は?

TOMOYA NEUTRAL

そっちは条件によるんだ。「AかBか選んで」みたいな単純な選択問題では、外向性の方向に活性化を足すと、外向的な選択肢を選ばせることができた。でも、「今日の天気について話して」みたいな性格と関係ない質問では効果がなかったし、もっと複雑な会話や、プロンプトに強い指示が書いてあると、その指示の方が優先されて、ステアリングの効果が消えちゃうことが多かった。

AMI SAD

あらら、まだ完全に操れるわけじゃないんだね。

TOMOYA NEUTRAL

そうだね。でも、この研究の意義は大きいと思うよ。第一に、AIの「性格」のような複雑な概念が、意外と単純な数学的操作で捉えられる可能性を示したこと。第二に、高コストな再学習と脆いプロンプトの、ちょうど中間にあたる新しい制御方法の可能性を切り開いたことだ。

AMI HAPPY

将来はどうなると思う?

TOMOYA NEUTRAL

例えば、ユーザーがスライダーで「もっと協調的に」「もっと創造的に」とAIの性格をその場で調整できるチャットボットができるかもしれない。あるいは、教育用AIなら常に誠実で忍耐強く、エンタメ用AIなら陽気で外向的に、と用途に合わせて簡単に性格をセットできるようになる。

AMI SURPRISED

わあ、楽しそう!でも、課題はあるんでしょ?

TOMOYA NEUTRAL

もちろん。今の方法は文脈に弱いし、一つのモデルでしか試してない。もっと複雑な非線形な関係を捉える必要があるかもしれない。あと、倫理的な問題もあって、ユーザーに気づかれないように性格を操作するのに悪用されたら困るから、その辺りの研究も必要だね。

AMI HAPPY

なるほど…。でも、AIの性格診断ができるなら、まずは私と智也くんの相性をAIに診断してもらおうかな!

TOMOYA NEUTRAL

…はあ。その前に、もっとまともな使い道を考えた方がいいんじゃないか?

要点

大規模言語モデル(LLM)は、ユーザーとの対話において一貫した「性格」のような振る舞いを示し、これはユーザーの信頼や関与に大きな影響を与える。

モデルの性格を制御する方法として、高コストな追加学習や脆いプロンプトエンジニアリングの中間的な手法として、線形方向を用いたプローブと制御が提案されている。

本研究では、心理学で広く使われる「ビッグファイブ」性格特性(外向性、情緒安定性、誠実性、協調性、開放性)に沿った線形方向を、モデルの隠れ層の活性化空間から学習する方法を提案した。

406体の架空のキャラクターの性格記述とビッグファイブスコアを生成し、それらを用いて線形回帰により各層ごとの性格方向を学習した。

学習した線形方向は、性格特性の検出(プローブ)には有効であったが、生成を制御(ステアリング)する能力は文脈に強く依存し、強制選択課題では効果的だが、自由記述や追加文脈がある場合には効果が限定的であった。

この手法は、追加学習に比べて安価で、プロンプトエンジニアリングに比べて頑健な、モデルの性格を分析・制御する中間的な手法としての可能性を示した。

参考論文: http://arxiv.org/abs/2512.17639v1