12月 08 2025 0 AIに科学の家庭教師は務まるか? 2万問の自動生成テストで「考える力」を診断 投稿者: ユウ 解説 ねえねえ、智也くん!これ見て!『PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluat…