評価 - 亜美と智也のAI論文解説

3月 06 2026

0

LLMの推論能力を「構造抽出」の観点から可視化するX-RAY手法

投稿者: ユウ

TL;DR X-RAYは、LLMの推論能力を「制約の相互作用」「推論の…

3月 06 2026

0

外部検索なしで事実確認：LLMの内部知識を活用する新手法INTRA

投稿者: ユウ

TL;DR 本論文は、外部知識検索（RAG）に依存せず、LLMの内部パ…

3月 05 2026

0

Text-to-SQL評価の精度を高める新手法：データベース制約を活用した検証ツールSpotIt+

投稿者: ユウ

TL;DR Text-to-SQLシステムの評価で、従来のテスト実行ベ…

12月 26 2025

0

AIはイルカを見分けられるか？〜海の専門家になれるか、世界初の試験に挑戦〜

投稿者: ユウ

解説ねえねえ、智也くん！これ見て！『MarineEval: Asse…

12月 25 2025

0

AIの実力差、見極められますか？〜評価実験の「ノイズ」を科学するメタの研究〜

投稿者: ユウ

解説ねえねえ、智也くん！これ、面白そうな論文のタイトル見つけたんだけ…

12月 24 2025

0

AIは時速何キロで走れる？〜物理を“数値で”理解するAIの挑戦と、その意外な弱点〜

投稿者: ユウ

解説ねえねえ、智也くん！これ見て！『QUANTI PHY: A Qu…

12月 22 2025

0

「わーい」はそのまま？直す？SNS翻訳の正解が1つじゃないワケ

投稿者: ユウ

解説ねえねえ、智也くん！これ、面白そうな論文のタイトル見つけたんだけ…

12月 22 2025

0

AIが書いた「専門家レポート」、その実力はどう測る？〜信頼性を可視化する新基準「DEER」の挑戦〜

投稿者: ユウ

解説ねえねえ、智也くん！これ見て！『DEER: A Comprehe…

12月 22 2025

0

AIの視覚テストはマーカーの色で順位が変わる!? 〜ベンチマークの意外な脆弱性〜

投稿者: ユウ

解説ねえねえ、智也くん！この論文のタイトル、『Visually Pr…

12月 19 2025

0

AIがAIを採点する日〜「採点官AI」の実力はまだまだこれから？

投稿者: ユウ

解説ねえねえ、智也くん！これ、面白そうな論文のタイトル見つけたんだけ…