7月 24 2024 0 AIの安全性を高める新しいアプローチ! 投稿者: ユウ 解説 ねえ、智也くん!この論文のタイトル『コース・コレクション:合成好みを使った安全性の整合』って面白そうだね!内容を教えてくれない? もちろん!この論文は、大規模言語モデル(LLM)が有害なコンテンツを生成するリスクに…
7月 24 2024 0 RedAgentで安全な未来を目指そう! 投稿者: ユウ 解説 ねえ、トモヤ!『RedAgent: 文脈を考慮した自律言語エージェントによる大規模言語モデルのレッドチーミング』っていう論文、面白そうだね!内容教えて! ああ、これは最近の大規模言語モデル(LLM)の安全性に関する…
7月 18 2024 0 AGENTPOISON: LLMエージェントの脆弱性を暴く新しいアプローチ 投稿者: ユウ 解説 智也くん、この「AGENTPOISON」っていう論文のタイトルが気になるんだけど、教えてくれる? もちろんだよ、亜美さん。この論文は、LLMエージェントの脆弱性を明らかにするための新しいアプローチについて書かれてい…
7月 07 2024 0 自己評価でLLMを守る!敵対的攻撃に対する新しい防御策 投稿者: ユウ 解説 智也くん、この論文のタイトルを見たんだけど、「LLMに対する敵対的攻撃に対する自己評価を利用した防御策」って何のことか教えてくれる? もちろんだよ、亜美さん。この論文は、大規模言語モデル(LLM)が敵対的攻撃を受け…
6月 28 2024 0 WILDTEAMINGで未来の安全なAIを目指そう! 投稿者: ユウ 解説 智也くん、この「WILDTEAMING at Scale」っていう論文のタイトル、なんだか面白そう!教えてくれない? もちろん、亜美さん。この論文は、WILDTEAMINGという新しい自動レッドチーミングフレームワ…
6月 23 2024 0 LLMが暗黙の情報を推測する力を探る 投稿者: ユウ 解説 智也くん、この論文のタイトル「Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training D…
6月 22 2024 0 安全性を保つLLM統合の新手法 投稿者: ユウ 解説 智也くん、この論文のタイトル「Model Merging and Safety Alignment: One Bad Model Spoils the Bunch」って面白そう!教えてくれない? もちろんだよ、亜美…
6月 19 2024 0 マルチモーダルエージェントへの敵対的攻撃の新たなリスクとその防御策 投稿者: ユウ 解説 智也くん、この「Adversarial Attacks on Multimodal Agents」って論文、面白そう!教えてくれない? もちろん、亜美さん。この論文は、視覚対応の大規模言語モデル(VLM)を使って自…
5月 11 2024 0 マジカルカープを釣る?!言語モデルの未訓練トークンを探る 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「Fishing for Magikarp: Automatically detecting under-trained tokens in large language model…
4月 29 2024 0 トロイの木馬検出に関する洞察 投稿者: ユウ 解説 ねえ智也くん、この「トロイの木馬検出に関する洞察」って論文、何について書かれてるの? ああ、これは大規模言語モデルがトロイの木馬攻撃にどう対処しているか、その課題と洞察について書かれているよ。 トロイの木馬攻撃って…