Tag

#prompt injection

2026/06/28 安全工程

Agent 安全策略要从提示词搬到可验证策略代码

Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断：高权限 Agent 的安全边界不能只写在 system prompt 里，而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。

#Agent security #Policy-as-Code #Cedar #MCP #prompt injection #reference monitor #security automation #white-box scanning

2026/06/20 安全工程

不要让安全报告翻转求解器结论

LLM 接入 SAT/SMT、CodeQL、Joern 和漏洞验证器后，机器可验证结论仍可能在自然语言叙述阶段被提示注入或上下文污染翻转。本文从 narration gap 拆解一条授权白盒扫描流水线：verdict artifact、证据锁定、叙述校验、人工复核和可验证指标。

#LLM security #white-box scanning #static analysis #CodeQL #Joern #SARIF #prompt injection #vulnerability verification

2026/06/08 安全分析

MPBench 的价值不是攻击库，而是 Agent 记忆写入面的安全地图

arXiv:2606.04329 把 Agent 记忆投毒从零散案例整理成写入通道、结构性漏洞和 ASR/RSR 评测问题。工程上真正该落地的是记忆写入面的资产清单、来源权威、写后审计和跨会话回归测试。

#AI memory #agent memory #long-term memory #memory poisoning #memory security #agent security #memory evaluation #prompt injection

2026/06/02 安全工程

没有证书，就不要执行：Agent 安全审计需要从日志转向可认证轨迹

从 arXiv:2605.24462 的 Certified Traces、AgentSecBench、Agent-BOM 和当前 Agent SDK/Bedrock 工程接口看，安全 Agent 的关键不是让模型解释得更像人，而是让每次工具调用、白盒扫描、修复和部署动作在执行前携带可检查的权限、来源、证据和回放条件。

#agent security #security audit #tool use #certified traces #white-box scanner #AgentSecBench #prompt injection #memory security

2026/05/31 安全分析

记忆投毒进入第二阶段：绕过选择性记忆，劫持工具选择

从 MemPoison 和 MemMorph 看，Agent 记忆攻击正在从“把恶意内容写进长期记忆”推进到“让恶意内容通过抽取、重写、检索和工具推理链条”。生产系统需要把记忆写入、来源权威、检索召回和工具授权放进同一套评测。

#AI memory #agent memory #long-term memory #memory poisoning #memory-augmented agents #memory evaluation #tool use #prompt injection

2026/05/10 安全分析

AI Agent 记忆正在变成安全边界：从 Trojan Hippo 到影子记忆

5 月上旬的 Trojan Hippo、MAGE 和 Opal 等研究说明，长期记忆不只是个性化能力，也是跨会话攻击面、隐私泄露面和防护状态本身；生产系统必须把记忆写入、来源、工具权限和遗忘纳入同一个安全模型。

#AI memory #agent memory #long-term memory #memory security #prompt injection #personalization #memory evaluation #privacy