LLM評価 - 亜美と智也のAI論文解説

2月 01 2026

0

最強のAIは誰だ？統計学で暴く、本当に公平なリーダーボードの作り方

投稿者: ユウ

解説ねえねえ智也くん！この『ノンパラメトリックなLLM評価』っていう論文、タイトルが強そう！ノンパラメトリックって、なんか美味しそうな響きだね。パスタの種類かな？亜美さん、それは『ノンパラ』であってパスタじゃないよ。…

1月 22 2026

0

投稿者: ユウ

解説ねえねえ智也くん！この論文のタイトル、「少ない項目で自信を持ってランキング」だって。これって、もしかしてダイエット中の食べ比べを効率化する魔法の方法！？いや、全然違うよ。これはLLM、つまりAIの性能を効率よく評…

1月 20 2026

0

投稿者: ユウ

解説ねえねえ智也くん！この『Idea First, Code Later』っていう論文のタイトル、なんかカッコよくない？「アイデアが先、コードは後」だって！ああ、それね。競技プログラミングでAIがどうやって問題を解く…

1月 03 2026

0

投稿者: ユウ

解説智也くん、見て見て！「韓国の司法試験」と「AI」って書いてある論文を見つけたよ！AIが弁護士さんになっちゃうの？それは「KCL」っていう新しいベンチマーク、つまりAIの実力を測るためのテストについての論文だね。A…

1月 02 2026

0

投稿者: ユウ

解説ねえねえ智也くん！この『Encyclo-K』って論文、百科事典みたいな名前で面白そう！何が書いてあるの？ああ、それはAIの能力を測る新しいテスト方法についての論文だよ。今のAIテストが抱えてる大きな問題を解決しよ…

12月 25 2025

0

投稿者: ユウ

解説ねえねえ、智也くん！これ見て！『Measuring all the noises of LLM Evals』って論文のタイトル、なんかすごく気になる！ああ、それか。メタの研究者が書いた論文だね。LLMの評価実験に…

12月 19 2025

0

投稿者: ユウ

解説ねえねえ、智也くん！これ、面白そうな論文のタイトル見つけたんだけど…『Evaluating Metrics for Safety with LLM-as-Judges』…LLMが裁判官？なんかすごそう！ああ、それ…