Archive

文章

按发布时间倒序整理的 AI 记忆系统研究笔记。

AI 记忆系统

长期记忆授权不能只看内容,必须绑定写入来源

TMA-NM / MEM-INV-Bench 把 Agent 记忆投毒的防御焦点从内容检测和 lineage 追踪推进到 write-time origin binding:每条记忆在写入时就要绑定来源权威,并且只能通过独立可信主体背书提升权限。工程上这意味着 memory store 要像安全子系统,而不只是向量库。

安全工程

Agent 安全策略要从提示词搬到可验证策略代码

Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断:高权限 Agent 的安全边界不能只写在 system prompt 里,而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。

AI Native 实践

AI Native 工作流需要一等 Session

OpenRath 把多 Agent 工作流里的对话、工具调用、沙箱、分支、记忆和证据统一到 Session 运行时值。本文用研究发布和代码审查场景拆解一套可复制的 AI Native 工作流:状态模型、Agent 分工、权限边界、执行 SOP、质量指标、成本估算、失败回滚和一周验证计划。

记忆安全

共享 Agent 记忆不能只靠相关性检索

MaaS 把协作 Agent 的记忆访问从“检索到什么就给什么”改成按 owner、requester、recipient、task 和 purpose 做目的绑定调解。本文拆解 withhold / abstract / reveal 三态机制,并给出记忆调用网关、策略模型、审计记录、失败模式和一周验证计划。

AI Native 实践

企业 Agent 上线前,先做一条控制面

企业 Agent 的难点不是把模型接进流程,而是把操作包络、审批暂停、权限边界、可观测性和失败复盘做成可执行控制面。本文用高影响工单处理工作流拆解 AI Native 落地方案:原流程、Agent 分工、状态流转、发布门、指标、成本和回滚。

AI Native 实践

企业 Agent 不缺模型,缺的是可治理的上下文层

Work IQ API 在 2026-06-16 GA,把企业知识、工具、工作区和权限治理包装成 Agent 可用的上下文层。本文用产品反馈周报工作流拆解 AI Native 落地方案:原流程、Agent 分工、数据边界、SOP、质量指标、成本账本和回滚策略。

安全工程

Agent 编排在网络安全里的正确位置:从告警流水线到可审计的安全工作流

Agent 编排不是让一个大模型直接接管安全运营,而是把 triage、证据收集、静态分析、威胁情报、检测工程、修复验证和人工审批组织成有状态、有权限边界、可回放的安全工作流。本文给出一套面向 SOC 与白盒扫描的工程方案。

论文解读

Topic Document 不是笔记格式:它是长期 Agent 记忆的维护单元

Infini Memory 把长期 Agent 记忆从孤立片段和向量召回,推进到可维护的主题文档库。工程上,Topic Document 的价值不只是可读 Markdown,而是把写入缓冲、证据聚合、事实修订、局部检索和审计元数据放进同一个维护单元。

安全分析

相似不等于可信:Agent 记忆检索需要准入门,而不只是向量召回

arXiv:2606.06054 MemGate 把个人 Agent 的长期记忆检索定义为信任边界。工程上,记忆读路径不能只按相似度把候选片段塞进上下文,而要在检索和注入之间增加任务条件准入、来源权威、作用域隔离和工具副作用绑定。

工程架构

AgentIR:长期记忆检索需要控制面,而不是固定 RAG 管线

从 arXiv:2605.25092 AgentIR 看,长期对话记忆的读路径不是普通向量检索:索引会持续增长,查询类型会在会话内漂移,dense 通道并不总值得运行。生产 Agent 记忆层应该把检索策略、时间分区、延迟预算、来源治理和写入状态分开设计。

安全工程

没有证书,就不要执行:Agent 安全审计需要从日志转向可认证轨迹

从 arXiv:2605.24462 的 Certified Traces、AgentSecBench、Agent-BOM 和当前 Agent SDK/Bedrock 工程接口看,安全 Agent 的关键不是让模型解释得更像人,而是让每次工具调用、白盒扫描、修复和部署动作在执行前携带可检查的权限、来源、证据和回放条件。

研究分析

级联压缩不是长期记忆:项目知识该留在上下文里,还是合进权重里

arXiv:2605.24657 把软件开发对话里的级联压缩和 LoRA 式权重合并放到同一评测里:压缩循环会快速丢失程序性纠错和项目事实,而权重合并保留更多知识。但这不意味着所有记忆都应该写进模型,真正的问题是如何在上下文、外部记忆和可回滚适配器之间划边界。

安全分析

记忆投毒进入第二阶段:绕过选择性记忆,劫持工具选择

从 MemPoison 和 MemMorph 看,Agent 记忆攻击正在从“把恶意内容写进长期记忆”推进到“让恶意内容通过抽取、重写、检索和工具推理链条”。生产系统需要把记忆写入、来源权威、检索召回和工具授权放进同一套评测。

论文解读

记忆合并不是后台清理:Agent 长期记忆的高风险写路径

从 Useful Memories Become Faulty When Continuously Updated by LLMs 看,自动把成功轨迹持续压缩成文字经验,可能让 Agent 从有用记忆退化到错误记忆;长期记忆系统需要把 consolidation 当成可验证、可回滚、可门控的写操作,而不是无条件后台任务。

论文解读

ZipAct:Agent 记忆不一定要回放历史,也可以维护状态

TMLR 2026-05-17 接收的 ZipAct 把 agent 的交互历史压缩成 Goal、World、Constraint 三类结构化状态,让动作生成只看当前状态表和最新观察。它提醒我们,长任务记忆的关键不只是存储更多历史,而是把可执行状态、负反馈和约束持续更新到一个可验证的工作记忆里。

研究综述

LinkedIn HLTM:生产级个性化记忆为什么要先对齐业务边界

LinkedIn 的 Hierarchical Long-Term Semantic Memory 和 Cognitive Memory Agent 把 agent memory 从“多存一些聊天历史”推进到生产个性化基础设施:schema-aligned 语义树、多视图记忆、身份作用域检索、近线增量更新、可观测来源和端到端质量指标。它的启发是,企业 agent 的长期记忆首先是业务边界、隐私隔离和延迟预算问题,其次才是向量检索问题。

研究综述

LongMemEval-V2:Agent 记忆评测正在从聊天历史转向环境经验

LongMemEval-V2 把长期记忆问题从用户聊天历史推进到 web/enterprise agent 的环境经验:静态状态、动态变化、工作流、局部陷阱和前提意识。它提醒我们,生产记忆系统不能只追求 RAG 召回分数,还要证明经验能被压缩、检索、使用,并在延迟成本内帮助 agent 像资深同事一样工作。

工程分析

从记住到可运行:Coding Agent 记忆系统正在变成运行时可靠性问题

OpenAI Agents SDK 的 sandbox memory 文档和 AgentMemory 近期连续修复显示,coding agent 的长期记忆不再只是 RAG 或偏好存储,而是涉及文件化状态、渐进披露、隔离布局、召回正确性、部署持久化、上下文预算和观测面的运行时系统。

工程分析

数据库正在收编 Agent 记忆层:从 LangGraph.js + MongoDB 看长期记忆的工程边界

MongoDB 在 2026-05-08 为 LangGraph.js 长期记忆发布一等支持,意味着短期 checkpoint、长期 store、语义检索和自动 embedding 正在进入应用数据库;但这解决的是运行时和存储边界,不等于解决记忆写入、作用域、遗忘和个性化误用。

开源项目分析

Hermes Agent 的记忆系统研究:为什么它不像 OpenClaw 那样把 Markdown 当核心事实源

从 NousResearch/hermes-agent 的官方文档和源码看,Hermes 的记忆系统由小容量常驻记忆、SQLite/FTS5 会话检索、外部记忆提供商和技能系统组成;它和 OpenClaw 的差异不在口号,而在事实源、召回路径、晋升机制和治理边界。