Agent 安全策略要从提示词搬到可验证策略代码
Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断:高权限 Agent 的安全边界不能只写在 system prompt 里,而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。
Tag
Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断:高权限 Agent 的安全边界不能只写在 system prompt 里,而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。
Semgrep Guardian、Codex MCP/Hook 文档与 agentic coding 工具依赖选择研究共同指向一个工程判断:AI 写代码的安全控制不能只等 CI 扫描,而要在 Agent 写文件、引入依赖、调用工具和提交 PR 的每一跳留下可验证的安全反馈。
Agent Audit、CodeBadger、CodeQL model packs 与 Semgrep Custom Workflows 共同指向一个工程判断:Agent 安全不能只靠提示词防护,而要把工具代码、MCP 配置、身份权限、记忆/上下文和 CI 证据做成可审计的发布关口。
OpenAnt 把仓库级漏洞发现拆成可达性裁剪、LLM 语义检测、对抗式验证和容器动态验证。本文从授权白盒扫描角度拆解一条 verified finding pipeline:候选、证据、反证、复现、报告放行、人工审核和可验证指标。
Agent 编排不是让一个大模型直接接管安全运营,而是把 triage、证据收集、静态分析、威胁情报、检测工程、修复验证和人工审批组织成有状态、有权限边界、可回放的安全工作流。本文给出一套面向 SOC 与白盒扫描的工程方案。