AIの記憶力を本格テスト！ウェブ操作やプログラミングを長く覚える新手法が登場

3月 01 2026

解説

ねえねえ、智也くん！これ見て！『AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications』…なんか難しそうだけど、エージェントの記憶って、AIが自分で考えて動くのにすごく大事なんだよね？教えて！

ああ、この論文か。確かに重要な研究だよ。簡単に言うと、今までのAIエージェントの「記憶力」のテストは、現実とずれていたんだ。

ずれてた？どういうこと？

今までの評価は、ほとんどが人間とのチャットを想定してた。でも、実際にウェブを操作したり、コードを書いたりするAIエージェントは、HTMLやJSON、プログラムのコードみたいな、機械が生成したデータの連続を記憶しなきゃいけない。それに、行動には因果関係がある。ボタンを押したら画面が変わる、みたいなね。

あー、確かに！AIがお買い物してる動画で見たことある！検索ボックスに文字を打ち込んだり、フィルターを選んだりしてた。あれはチャットとは全然違う世界だ。

その通り。だからこの論文では、そんな現実のエージェントの行動データを集めた「AMA-Bench」っていう新しいテストセットを作ったんだ。実世界のデータと、自由に長さを変えられる合成データの2種類がある。

で、その新しいテストで既存のAIの記憶力はどうだったの？

あまり良くなかった。最先端のモデルでも72%くらいの正解率だ。問題は主に2つあって、1つは記憶を圧縮して小さくする時に大事な情報まで捨ててしまうこと。もう1つは、単に似ている言葉で検索する方法では、機械が生成したデータの中から正確な証拠を見つけられないことだ。

えー、それは困るね。じゃあ、この論文ではどう解決したの？

新しい記憶システム「AMA-Agent」を提案してる。中身は大きく2つ。1つは「因果関係グラフ」。行動と結果のつながりをグラフの形で残すんだ。もう1つは「ツール拡張検索」。単なる類似検索じゃなくて、グラフをたどったり、キーワードで探したり、複数の方法を組み合わせる。

すごい！それで性能は上がったの？

うん。既存で最高だった記憶システムより、平均で11.16%も精度が向上した。57.22%の正解率だ。

やった！ってことは、この研究が進めば、もっと賢くて長い仕事をこなせるAIアシスタントができるってこと？

そうだね。ウェブ調査を任せたり、複雑なソフトウェア開発を手伝わせたり、現実世界のロボットの制御にも応用できる可能性がある。ただ、まだ課題はあって、もっと複雑な因果関係を扱ったり、さらに効率的な記憶の管理方法を考えなきゃいけない。

ふむふむ…。じゃあ、将来はAIに『この前のあの作業の続きやっておいて』ってお願いできる日が来るかも！私、記憶力悪いから助かるなぁ。

…亜美さんの記憶力の話は置いといて、少なくともAIの記憶力は確実に良くなりそうだよ。

要点

既存のAIエージェントの記憶評価は、人間との対話を中心としたものが多く、実際のエージェントが扱う機械生成データ（JSON、HTML、コードなど）や因果関係を考慮した評価が不足していた。
この問題を解決するため、AMA-Benchという新しい評価基準を提案。実世界のエージェント軌跡と、任意の長さに拡張可能な合成軌跡の2つのデータセットから構成される。
AMA-Benchを用いた評価により、既存の記憶システムは、情報の圧縮による損失や類似性に基づく検索が原因で、長期的なエージェントタスクで性能が低下することが明らかになった。
これらの課題を解決するため、因果関係グラフとツール拡張検索を備えた新しい記憶システム「AMA-Agent」を提案。既存の最高性能の記憶システムを11.16%上回る性能を達成した。
本研究は、エージェント中心の記憶設計の重要性を示し、より現実的なAIエージェント開発への道筋を開いた。

参考論文: http://arxiv.org/abs/2602.22769v1

投稿日:AI

タグAI AI Agent AIエージェントベンチマーク長期記憶

AIの記憶力を本格テスト！ ウェブ操作やプログラミングを長く覚える新手法が登場

解説

要点

Related Posts

関連記事:

コメントを残す コメントをキャンセル

AIの記憶力を本格テスト！ウェブ操作やプログラミングを長く覚える新手法が登場

コメントを残すコメントをキャンセル