12月 09 2025 0 AIの推論はホントに信頼できる?「今日は正解、明日は不正解」の危険性に迫る 投稿者: ユウ 解説 ねえねえ、智也くん!これ見て!『ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning』って論文のタイトル。なんかすごそう! ああ、それか。確かに今…
9月 13 2024 0 LLMが研究を助ける未来の可能性 投稿者: ユウ 解説 ねえ、智也くん!この論文のタイトル『SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories』って面…