Agent 安全策略要从提示词搬到可验证策略代码
Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断:高权限 Agent 的安全边界不能只写在 system prompt 里,而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。
Security Engineering
研究白盒扫描、代码图、静态分析、Agent 安全审计、漏洞验证、规则系统和安全自动化工程。
Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断:高权限 Agent 的安全边界不能只写在 system prompt 里,而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。
Semgrep Guardian、Codex MCP/Hook 文档与 agentic coding 工具依赖选择研究共同指向一个工程判断:AI 写代码的安全控制不能只等 CI 扫描,而要在 Agent 写文件、引入依赖、调用工具和提交 PR 的每一跳留下可验证的安全反馈。
Agent Audit、CodeBadger、CodeQL model packs 与 Semgrep Custom Workflows 共同指向一个工程判断:Agent 安全不能只靠提示词防护,而要把工具代码、MCP 配置、身份权限、记忆/上下文和 CI 证据做成可审计的发布关口。
OpenAnt 把仓库级漏洞发现拆成可达性裁剪、LLM 语义检测、对抗式验证和容器动态验证。本文从授权白盒扫描角度拆解一条 verified finding pipeline:候选、证据、反证、复现、报告放行、人工审核和可验证指标。
LLM 接入 SAT/SMT、CodeQL、Joern 和漏洞验证器后,机器可验证结论仍可能在自然语言叙述阶段被提示注入或上下文污染翻转。本文从 narration gap 拆解一条授权白盒扫描流水线:verdict artifact、证据锁定、叙述校验、人工复核和可验证指标。
SMSR、MemVenom 和长期记忆安全综述把 Agent 记忆安全推到可验证治理阶段:生产系统不能只做 prompt filter,而要把来源签名、随机化检索、证书复算、回滚和工具调用审计放进同一条验收链。
Agent 编排不是让一个大模型直接接管安全运营,而是把 triage、证据收集、静态分析、威胁情报、检测工程、修复验证和人工审批组织成有状态、有权限边界、可回放的安全工作流。本文给出一套面向 SOC 与白盒扫描的工程方案。
arXiv:2606.06054 MemGate 把个人 Agent 的长期记忆检索定义为信任边界。工程上,记忆读路径不能只按相似度把候选片段塞进上下文,而要在检索和注入之间增加任务条件准入、来源权威、作用域隔离和工具副作用绑定。
arXiv:2606.04329 把 Agent 记忆投毒从零散案例整理成写入通道、结构性漏洞和 ASR/RSR 评测问题。工程上真正该落地的是记忆写入面的资产清单、来源权威、写后审计和跨会话回归测试。
从 arXiv:2606.03895 Agent libOS 看,长期运行 Agent 的风险不只在 prompt、工具描述或扫描规则里,而在调度、对象记忆、权限授予、人类审批、恢复和审计这些运行时原语能否成为真正的授权边界。
从 arXiv:2605.24462 的 Certified Traces、AgentSecBench、Agent-BOM 和当前 Agent SDK/Bedrock 工程接口看,安全 Agent 的关键不是让模型解释得更像人,而是让每次工具调用、白盒扫描、修复和部署动作在执行前携带可检查的权限、来源、证据和回放条件。
从 MemPoison 和 MemMorph 看,Agent 记忆攻击正在从“把恶意内容写进长期记忆”推进到“让恶意内容通过抽取、重写、检索和工具推理链条”。生产系统需要把记忆写入、来源权威、检索召回和工具授权放进同一套评测。
本文把 Agent、Code Property Graph、Low False Positive Control Layer、规则引擎、数据流分析和验证沙箱合成一个白盒扫描器方案:不是让大模型直接猜漏洞,而是让它围绕代码图、低误报控制、证据链和 PoC 验证来工作。