解説ねえ智也くん、この「DIB…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『人間と言語モデルにおける文法性判断:生成文法をLLMで再考する』? なんか難しそうだけど、生成文法ってあのチョムスキーさんのやつだよね? LLMが文法を理解してるか調べたってこと?

ああ、その論文か。確かに面白い研究だよ。簡単に言うと、AIの言語モデルが、単に単語を並べるだけでなく、文の「構造」を本当に理解しているのか、人間と同じような「文法感覚」を持っているのかを調べているんだ。

構造? 文法感覚? AIに感覚があるの?

いや、比喩的な表現だよ。人間が子供の頃から自然に身につける、文が正しいか間違っているかを判断する能力、それが文法性判断だ。この論文は、AIがその判断を再現できるかどうかを見ることで、AIの内部に人間のような「文の構造の理解」が生まれているかどうかを推し量ろうとしているんだ。

ふーん…でも、どうやって調べるの? AIに「この文、変?」って聞くの?

そうだね。具体的には、生成文法の世界で昔から重要な証拠とされてきた2つの「構文」を使うんだ。1つは「主語-助動詞倒置」。例えば、「泣いている男の子は外に行くの?」を英語の疑問文にする時、正しくは「Will the boy who is crying go outside?」だよね。間違って「*Had the boy who is crying will go outside?」とは言わない。この正誤を判断するには、文の主語の塊(「泣いている男の子」全体)を見極める必要がある。

あ、確かに!後者の変な文は、関係代名詞の後ろの「is」を前に出しちゃってるんだね。これは構造を見てないと間違えそう。

その通り。もう1つは「寄生ギャップ」という、もっとマニアックな現象だ。例えば、「Which organization did you donate money to because you believed in?」という文は正しい。ここには「to」の後と「in」の後に、見えない穴(ギャップ)が2つある。でも、片方だけを代名詞で埋めると文は壊れる。この「2つの穴が依存し合っている」関係を理解するには、文の階層的な依存構造が必要なんだ。

うわ、確かにマニアック…。で、AIはこのテストに合格したの?

そう。GPT-4やLLaMA-3に、文法的な文と非文法的な文のペアを見せて、1から5で自然さを評価させたんだ。結果、これらのモデルは、主語-助動詞倒置でも寄生ギャップでも、ほぼ完璧に人間と同じ判断を下した。つまり、単語の並び順だけを見ているのではなく、背後にある文の構造に基づいて判断している証拠だと言える。

すごい!じゃあAIはもう人間と同じように文法を理解してるってこと?

そこが重要なところで、論文はもっと慎重な立場を取っている。LLMを「完全な人間の言語能力のモデル」と見るのではなく、「理論的代理(プロキシ)」として使おう、という考え方だ。

プロキシ?

そう。つまり、AIがこのような構造的な判断をデータから学習できたということは、「人間の子供も、生まれつき文法の知識が備わっている(生得説)必要はなく、十分なデータに触れることで統計的に学習できる可能性がある」という仮説を支持する「証拠」の一つになり得る、ということだ。AIそのものが人間の心を再現したと言うのではなく、言語理論を検証するための強力な実験ツールとして使おう、という発想なんだ。

なるほど…。AIの能力を調べることが、逆に人間の言語学習の謎を解く手がかりになるんだね。すごく深い!

そういうこと。ただ、万能ではない。例えば「横断的(ATB)抽出」という、並列構造における対称的な移動が必要な構文では、特にノルウェー語で性能が落ちた。また、学習データに存在する構造的な規則性を「反映」しているのであって、ゼロから「発明」しているわけではない、という点も注意が必要だ。

うん、確かに。データに偏りがあったら、AIの判断も偏っちゃうもんね。でも、この研究って、AIがブラックボックスじゃなくて、人間の知性を映し出す鏡みたいなものとして使える可能性を感じさせてくれるね。

その表現は的を射ているかもしれない。今後は、より多様な言語や、より複雑な構文で検証が進めば、人間の言語能力の本質に迫る手がかりがさらに得られるだろう。

じゃあ将来は、AIに英語の文法を教えてもらう日が来るかも?「この文、変ですよ。なぜなら構造的に…」って。

…その前に、君がまず日本語の「ら」抜き言葉を直した方がいいんじゃないか?

えー!それって今、話題そらしてる? 智也くんも結構スルーテクニックあるんだね!
要点
この論文は、大規模言語モデル(LLM)が、人間の文法判断と同様に、文の表層形式だけでなく、その背後にある階層的な構文構造を捉えているかどうかを検証している。
具体的には、生成文法の古典的な証拠とされる「主語-助動詞倒置」と「寄生ギャップ」という2つの構文に焦点を当て、GPT-4やLLaMA-3などのモデルが、文法的な文と非文法的な文を区別できるかを調べた。
実験結果として、LLMはこれらの構文において、人間と同様に文法的な判断を下すことができ、単なる単語の並び順(線形順序)ではなく、構造に敏感であることが示された。
このことは、LLMが膨大な表層形式のデータから予測学習を行うだけで、明示的に教えられていない構文に関する機能的な感度(構造的一般化)を獲得できる可能性を示唆している。
論文の意義として、LLMを「理論的代理(プロキシ)」として用いることで、人間の言語知識のうち、どの部分が入力データからの統計的学習だけで獲得可能なのかを探る新しい研究手法を提供している点が挙げられる。
一方で、ATB(横断的)抽出などのより複雑な構文では性能が低下するなど、限界も明らかになっており、今後の研究課題を示している。