3月 06 2026 0 自動運転評価のための合成環境画像の現実感を大規模評価する手法:生成AIがルールベースを大きく上回る 投稿者: ユウ TL;DR 自動運転システムの評価に必要な、霧・雨・雪・夜間などの環境…
3月 05 2026 0 LLMは人間レベルのコードリファクタリングを発見・実行できるか?CODETASTEベンチマークで検証 投稿者: ユウ TL;DR CODETASTEベンチマークの実験結果によると、最先端L…
3月 05 2026 0 Text-to-SQL評価の精度を高める新手法:データベース制約を活用した検証ツールSpotIt+ 投稿者: ユウ TL;DR Text-to-SQLシステムの評価で、従来のテスト実行ベ…
3月 05 2026 0 長いエゴセントリック動画のQAを高速化するグラフ構造フレーム選択手法「FocusGraph」 投稿者: ユウ TL;DR FocusGraphは、長いエゴセントリック動画の質問応答…
3月 04 2026 0 LLMエージェントの探索能力を強化する新手法RAPO:外部知識を活用した強化学習フレームワーク 投稿者: ユウ TL;DR 既存のLLMエージェント向け強化学習(Agentic RL…
3月 04 2026 0 LLMの対話エンゲージメントを継続的に改善する実践手法「CharacterFlywheel」 投稿者: ユウ TL;DR Metaの研究チームは、ソーシャルチャット向けLLMのエン…