文章

按发布时间倒序整理的 AI 记忆系统研究笔记。

2026/06/29 AI 记忆系统

长期记忆授权不能只看内容，必须绑定写入来源

TMA-NM / MEM-INV-Bench 把 Agent 记忆投毒的防御焦点从内容检测和 lineage 追踪推进到 write-time origin binding：每条记忆在写入时就要绑定来源权威，并且只能通过独立可信主体背书提升权限。工程上这意味着 memory store 要像安全子系统，而不只是向量库。

#AI memory #agent memory #long-term memory #memory poisoning #memory security #information-flow control #memory evaluation

2026/06/28 安全工程

Autoformalization of Agent Instructions into Policy-as-Code、out-of-band prompt injection defense 评估和 MCP description-code inconsistency 测量共同指向一个工程判断：高权限 Agent 的安全边界不能只写在 system prompt 里，而要落到可验证 schema、策略代码、运行时参考监控器和自适应评估流水线。

#Agent security #Policy-as-Code #Cedar #MCP #prompt injection #reference monitor #security automation #white-box scanning

2026/06/27 安全工程

AI 生成代码的安全关口要前移到写入瞬间

Semgrep Guardian、Codex MCP/Hook 文档与 agentic coding 工具依赖选择研究共同指向一个工程判断：AI 写代码的安全控制不能只等 CI 扫描，而要在 Agent 写文件、引入依赖、调用工具和提交 PR 的每一跳留下可验证的安全反馈。

#AI-generated code #Agent security #SAST #Semgrep #MCP #supply chain security #secure coding #security automation

2026/06/26 系统架构

Agent 原生记忆系统需要四模块控制面

arXiv:2606.24775 和 MemoryData 把长期记忆从单一检索模块拆成表示存储、抽取、检索路由和维护四层。工程上真正该落地的不是再换一个向量库，而是给每层建立变更门禁、回放评测、成本账本和失效回滚。

#AI memory #agent memory #long-term memory #memory evaluation #memory-augmented agents #context compression #MemoryData #agent-native memory

2026/06/25 AI Native 实践

文档型 Agent 上线前，要先设计可审计动作流

M-Files Custom Agents 的公开 beta 暴露了一个更普遍的 AI Native 问题：文档 Agent 不应停在检索和摘要，而要把读取、判断、属性更新、路由、人工复核和审计证据做成可回滚的工作流。

#AI Native #agentic workflow #document automation #enterprise knowledge management #human-in-the-loop #governance #audit trail

2026/06/24 安全工程

Agent 应用上线前需要一条白盒安全审计关口

Agent Audit、CodeBadger、CodeQL model packs 与 Semgrep Custom Workflows 共同指向一个工程判断：Agent 安全不能只靠提示词防护，而要把工具代码、MCP 配置、身份权限、记忆/上下文和 CI 证据做成可审计的发布关口。

#agent security #white-box scanning #MCP #static analysis #CodeQL #Joern #Semgrep #CI/CD #security automation

2026/06/23 AI Native 实践

AI Native 工作流需要一等 Session

OpenRath 把多 Agent 工作流里的对话、工具调用、沙箱、分支、记忆和证据统一到 Session 运行时值。本文用研究发布和代码审查场景拆解一套可复制的 AI Native 工作流：状态模型、Agent 分工、权限边界、执行 SOP、质量指标、成本估算、失败回滚和一周验证计划。

#AI Native #agentic workflow #multi-agent systems #workflow automation #agent runtime #state management #human-in-the-loop #knowledge work

2026/06/22 记忆安全

共享 Agent 记忆不能只靠相关性检索

MaaS 把协作 Agent 的记忆访问从“检索到什么就给什么”改成按 owner、requester、recipient、task 和 purpose 做目的绑定调解。本文拆解 withhold / abstract / reveal 三态机制，并给出记忆调用网关、策略模型、审计记录、失败模式和一周验证计划。

#AI memory #agent memory #memory security #multi-agent systems #context engineering #privacy #agentic workflow #memory governance

2026/06/21 安全工程

白盒扫描 Agent 不应该停在候选漏洞

OpenAnt 把仓库级漏洞发现拆成可达性裁剪、LLM 语义检测、对抗式验证和容器动态验证。本文从授权白盒扫描角度拆解一条 verified finding pipeline：候选、证据、反证、复现、报告放行、人工审核和可验证指标。

#white-box scanning #vulnerability discovery #LLM security #static analysis #dynamic verification #SAST #Agent security #security automation

2026/06/20 安全工程

不要让安全报告翻转求解器结论

LLM 接入 SAT/SMT、CodeQL、Joern 和漏洞验证器后，机器可验证结论仍可能在自然语言叙述阶段被提示注入或上下文污染翻转。本文从 narration gap 拆解一条授权白盒扫描流水线：verdict artifact、证据锁定、叙述校验、人工复核和可验证指标。

#LLM security #white-box scanning #static analysis #CodeQL #Joern #SARIF #prompt injection #vulnerability verification

2026/06/19 AI Native 实践

企业 Agent 上线前，先做一条控制面

企业 Agent 的难点不是把模型接进流程，而是把操作包络、审批暂停、权限边界、可观测性和失败复盘做成可执行控制面。本文用高影响工单处理工作流拆解 AI Native 落地方案：原流程、Agent 分工、状态流转、发布门、指标、成本和回滚。

#AI Native #agentic workflow #AgentOps #human-in-the-loop #enterprise agents #AI governance #workflow automation #agent control plane

2026/06/18 评测方法

Agent Memory 评测不能只看答对率

MemGym 把长期记忆评测从多轮聊天扩展到检索、代码、Web 导航和工具对话；2606.06448 则提醒我们，记忆系统还要按 construction、retrieval、generation 的生命周期成本评估。本文给出一套 memory-isolated scoring 与 lifecycle profiling 结合的工程评测协议。

#AI memory #agent memory #memory evaluation #long-horizon agents #context compression #MemGym #MemRM #lifecycle profiling

2026/06/17 工程架构

长程 Agent 的上下文压缩，不能破坏 prompt cache

TokenPilot 在 2026-06-15 提出一个很实用的工程提醒：长程 Agent 不能只按 token 数做上下文压缩，还要保护 prompt/KV cache 的前缀连续性。本文拆解 cache-aware context management 的机制、数据结构、上线方案、失败模式和可验证指标。

#AI memory #agent memory #context compression #prompt cache #KV cache #long-horizon agents #memory evaluation #cost optimization

2026/06/16 AI Native 实践

企业 Agent 不缺模型，缺的是可治理的上下文层

Work IQ API 在 2026-06-16 GA，把企业知识、工具、工作区和权限治理包装成 Agent 可用的上下文层。本文用产品反馈周报工作流拆解 AI Native 落地方案：原流程、Agent 分工、数据边界、SOP、质量指标、成本账本和回滚策略。

#AI Native #agentic workflow #enterprise knowledge management #Work IQ #Agent 365 #workflow automation #human-in-the-loop #context engineering

2026/06/15 安全分析

运行时记忆投毒防御：证书要绑定写路径，而不是只靠检索过滤

SMSR、MemVenom 和长期记忆安全综述把 Agent 记忆安全推到可验证治理阶段：生产系统不能只做 prompt filter，而要把来源签名、随机化检索、证书复算、回滚和工具调用审计放进同一条验收链。

#AI memory #agent memory #long-term memory #memory poisoning #memory security #RAG #agent security #memory evaluation

2026/06/15 安全工程

Agent 编排在网络安全里的正确位置：从告警流水线到可审计的安全工作流

Agent 编排不是让一个大模型直接接管安全运营，而是把 triage、证据收集、静态分析、威胁情报、检测工程、修复验证和人工审批组织成有状态、有权限边界、可回放的安全工作流。本文给出一套面向 SOC 与白盒扫描的工程方案。

#agent security #security automation #SOC #agent orchestration #white-box scanning #CodeQL #SARIF #human-in-the-loop

2026/06/14 论文解读

Topic Document 不是笔记格式：它是长期 Agent 记忆的维护单元

Infini Memory 把长期 Agent 记忆从孤立片段和向量召回，推进到可维护的主题文档库。工程上，Topic Document 的价值不只是可读 Markdown，而是把写入缓冲、证据聚合、事实修订、局部检索和审计元数据放进同一个维护单元。

#AI memory #agent memory #long-term memory #memory-augmented agents #RAG #context compression #memory evaluation #personalization

2026/06/11 安全分析

相似不等于可信：Agent 记忆检索需要准入门，而不只是向量召回

arXiv:2606.06054 MemGate 把个人 Agent 的长期记忆检索定义为信任边界。工程上，记忆读路径不能只按相似度把候选片段塞进上下文，而要在检索和注入之间增加任务条件准入、来源权威、作用域隔离和工具副作用绑定。

#AI memory #agent memory #long-term memory #memory security #RAG #agent security #memory evaluation #personalization

2026/06/10 工程架构

Agent 记忆系统要先做成本账本，再谈长期智能

arXiv:2606.06448 把 Agent memory 从结构设计推进到系统工作负载表征：写入构建、检索、生成各自承担不同成本。生产系统需要用 phase-aware profiling、容量治理、调度策略和收益指标证明记忆层不是更贵的上下文。

#AI memory #agent memory #long-term memory #memory evaluation #RAG #systems #observability #capacity planning

2026/06/08 安全分析

MPBench 的价值不是攻击库，而是 Agent 记忆写入面的安全地图

arXiv:2606.04329 把 Agent 记忆投毒从零散案例整理成写入通道、结构性漏洞和 ASR/RSR 评测问题。工程上真正该落地的是记忆写入面的资产清单、来源权威、写后审计和跨会话回归测试。

#AI memory #agent memory #long-term memory #memory poisoning #memory security #agent security #memory evaluation #prompt injection

2026/06/07 研究分析

记忆摘要要有中间监督：从 MMPO 看长程 Agent 的记忆策略优化

arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励：问题不只是摘要能否变短，而是每一步摘要后，Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。

#AI memory #agent memory #long-term memory #memory-augmented agents #context compression #memory evaluation #RAG #reinforcement learning

2026/06/06 研究分析

AgentCL：长期记忆评测要看经验能不能迁移，而不只是能不能召回

从 arXiv:2606.02461 AgentCL 看，Agent 长期记忆评测不应只停留在长对话召回、环境问答或抗干扰测试，还要测前序任务经验能否在后续任务中被稳定复用，以及何时会造成负迁移。

#AI memory #agent memory #long-term memory #continual learning #memory evaluation #memory-augmented agents #RAG #SWE-Bench

2026/06/05 安全工程

Agent libOS：长期运行 Agent 的安全边界应该下沉到运行时原语

从 arXiv:2606.03895 Agent libOS 看，长期运行 Agent 的风险不只在 prompt、工具描述或扫描规则里，而在调度、对象记忆、权限授予、人类审批、恢复和审计这些运行时原语能否成为真正的授权边界。

#agent security #runtime security #capability #audit #MCP #white-box scanning #AI memory

2026/06/04 工程架构

MemGuard：长期记忆系统要把事实、事件和规则分开治理

从 arXiv:2605.28009 MemGuard 看，长期记忆的可靠性问题不只来自检索召回不足，也来自把稳定事实、情景事件和操作规则混成同一种证据。生产 Agent 记忆层需要类型边界、关系图、查询路由和可审计的组合策略。

#AI memory #agent memory #long-term memory #memory evaluation #memory reliability #context engineering #RAG

2026/06/03 工程架构

AgentIR：长期记忆检索需要控制面，而不是固定 RAG 管线

从 arXiv:2605.25092 AgentIR 看，长期对话记忆的读路径不是普通向量检索：索引会持续增长，查询类型会在会话内漂移，dense 通道并不总值得运行。生产 Agent 记忆层应该把检索策略、时间分区、延迟预算、来源治理和写入状态分开设计。

#AI memory #agent memory #long-term memory #RAG #information retrieval #memory evaluation #LoCoMo #LongMemEval

2026/06/02 安全工程

没有证书，就不要执行：Agent 安全审计需要从日志转向可认证轨迹

从 arXiv:2605.24462 的 Certified Traces、AgentSecBench、Agent-BOM 和当前 Agent SDK/Bedrock 工程接口看，安全 Agent 的关键不是让模型解释得更像人，而是让每次工具调用、白盒扫描、修复和部署动作在执行前携带可检查的权限、来源、证据和回放条件。

#agent security #security audit #tool use #certified traces #white-box scanner #AgentSecBench #prompt injection #memory security

2026/06/01 研究分析

级联压缩不是长期记忆：项目知识该留在上下文里，还是合进权重里

arXiv:2605.24657 把软件开发对话里的级联压缩和 LoRA 式权重合并放到同一评测里：压缩循环会快速丢失程序性纠错和项目事实，而权重合并保留更多知识。但这不意味着所有记忆都应该写进模型，真正的问题是如何在上下文、外部记忆和可回滚适配器之间划边界。

#AI memory #agent memory #long-term memory #memory-augmented agents #context compression #personalization #LoRA #memory evaluation

2026/05/31 安全分析

记忆投毒进入第二阶段：绕过选择性记忆，劫持工具选择

从 MemPoison 和 MemMorph 看，Agent 记忆攻击正在从“把恶意内容写进长期记忆”推进到“让恶意内容通过抽取、重写、检索和工具推理链条”。生产系统需要把记忆写入、来源权威、检索召回和工具授权放进同一套评测。

#AI memory #agent memory #long-term memory #memory poisoning #memory-augmented agents #memory evaluation #tool use #prompt injection

2026/05/29 工程解读

记忆注入才是 Agent 长期记忆的真正瓶颈

从 SuperBrain、Claude Code hooks、claude-mem 和 Memory-R2 看，长期记忆系统的难点正在从存储迁移到工作上下文注入：什么时候取、取多少、凭什么取、如何阻止旧记忆污染当前任务。

#AI memory #agent memory #long-term memory #memory-augmented agents #context compression #memory evaluation #personalization #RAG

2026/05/28 论文解读

长期记忆的单位不是聊天：持久化 Agent 需要环境级评估

从 Persistent AI Agents in Academic Research 看，长期记忆 Agent 的评估对象不该只是单轮回答、RAG 命中率或 token 成本，而应扩展到人-代理-文件-工具-计划任务-治理规则组成的持久化环境。

#AI memory #agent memory #long-term memory #memory-augmented agents #memory evaluation #context compression #personalization #RAG

2026/05/21 论文解读

记忆合并不是后台清理：Agent 长期记忆的高风险写路径

从 Useful Memories Become Faulty When Continuously Updated by LLMs 看，自动把成功轨迹持续压缩成文字经验，可能让 Agent 从有用记忆退化到错误记忆；长期记忆系统需要把 consolidation 当成可验证、可回滚、可门控的写操作，而不是无条件后台任务。

#AI memory #agent memory #long-term memory #memory-augmented agents #context compression #forgetting #memory evaluation #RAG

2026/05/20 研究综述

LongMINT：Agent 记忆真正难的是抗干扰，而不是存得更久

LongMINT 把长期记忆评测推到多目标干扰、事实修订和跨片段聚合推理场景；结合 MedMemoryBench 的 memory saturation，可以看到生产 Agent 记忆的核心风险不是容量不足，而是旧事实、新事实、噪声和多任务目标互相污染。

#AI memory #agent memory #long-term memory #memory-augmented agents #memory evaluation #RAG #forgetting #personalization

2026/05/18 网络安全

Agent + CPG + LFP：怎样构建一个可验证的白盒扫描器

本文把 Agent、Code Property Graph、Low False Positive Control Layer、规则引擎、数据流分析和验证沙箱合成一个白盒扫描器方案：不是让大模型直接猜漏洞，而是让它围绕代码图、低误报控制、证据链和 PoC 验证来工作。

#white-box scanner #CPG #LFP #static analysis #agent security #CodeQL #Joern

2026/05/18 论文解读

ZipAct：Agent 记忆不一定要回放历史，也可以维护状态

TMLR 2026-05-17 接收的 ZipAct 把 agent 的交互历史压缩成 Goal、World、Constraint 三类结构化状态，让动作生成只看当前状态表和最新观察。它提醒我们，长任务记忆的关键不只是存储更多历史，而是把可执行状态、负反馈和约束持续更新到一个可验证的工作记忆里。

#AI memory #agent memory #context compression #memory-augmented agents #memory evaluation #RAG #forgetting

2026/05/15 研究综述

LinkedIn HLTM：生产级个性化记忆为什么要先对齐业务边界

LinkedIn 的 Hierarchical Long-Term Semantic Memory 和 Cognitive Memory Agent 把 agent memory 从“多存一些聊天历史”推进到生产个性化基础设施：schema-aligned 语义树、多视图记忆、身份作用域检索、近线增量更新、可观测来源和端到端质量指标。它的启发是，企业 agent 的长期记忆首先是业务边界、隐私隔离和延迟预算问题，其次才是向量检索问题。

#AI memory #agent memory #long-term memory #personalization #RAG #memory evaluation #enterprise AI #semantic memory

2026/05/14 研究综述

LongMemEval-V2：Agent 记忆评测正在从聊天历史转向环境经验

LongMemEval-V2 把长期记忆问题从用户聊天历史推进到 web/enterprise agent 的环境经验：静态状态、动态变化、工作流、局部陷阱和前提意识。它提醒我们，生产记忆系统不能只追求 RAG 召回分数，还要证明经验能被压缩、检索、使用，并在延迟成本内帮助 agent 像资深同事一样工作。

#AI memory #agent memory #long-term memory #memory evaluation #RAG #web agents #context compression #personalization

2026/05/13 工程分析

从记住到可运行：Coding Agent 记忆系统正在变成运行时可靠性问题

OpenAI Agents SDK 的 sandbox memory 文档和 AgentMemory 近期连续修复显示，coding agent 的长期记忆不再只是 RAG 或偏好存储，而是涉及文件化状态、渐进披露、隔离布局、召回正确性、部署持久化、上下文预算和观测面的运行时系统。

#AI memory #agent memory #long-term memory #coding agents #RAG #context compression #memory evaluation #personalization

2026/05/12 研究综述

LongMemEval 军备赛之后：AI 记忆评测需要从分数转向证据链

PlugMem、gbrain-evals、MemPalace 和 Mem0 等近期材料显示，agent memory 的公开评测正在进入高分密集区；真正重要的问题不再只是 R@5 或 accuracy，而是数据划分、调参污染、成本账本、可复现脚本和生产迁移边界。

#AI memory #agent memory #long-term memory #memory evaluation #RAG #personalization #benchmark

2026/05/10 安全分析

AI Agent 记忆正在变成安全边界：从 Trojan Hippo 到影子记忆

5 月上旬的 Trojan Hippo、MAGE 和 Opal 等研究说明，长期记忆不只是个性化能力，也是跨会话攻击面、隐私泄露面和防护状态本身；生产系统必须把记忆写入、来源、工具权限和遗忘纳入同一个安全模型。

#AI memory #agent memory #long-term memory #memory security #prompt injection #personalization #memory evaluation #privacy

2026/05/09 工程分析

数据库正在收编 Agent 记忆层：从 LangGraph.js + MongoDB 看长期记忆的工程边界

MongoDB 在 2026-05-08 为 LangGraph.js 长期记忆发布一等支持，意味着短期 checkpoint、长期 store、语义检索和自动 embedding 正在进入应用数据库；但这解决的是运行时和存储边界，不等于解决记忆写入、作用域、遗忘和个性化误用。

#AI memory #agent memory #long-term memory #LangGraph #MongoDB #RAG #memory evaluation #personalization

2026/05/07 研究综述

MemAgents 之后：AI Agent 记忆系统开始进入瓶颈诊断阶段

从 2026-05-06 的 MemAgents workshop 回顾和 ICLR/OpenReview 论文线索看，AI agent memory 的关键问题正在从“要不要长期记忆”转向写入、压缩、召回、利用和评测瓶颈的可诊断化。

#AI memory #agent memory #long-term memory #memory evaluation #context compression #RAG #personalization

2026/05/05 论文解读

记忆稀释：AI Agent 的长期记忆为什么仍然会遗忘

从 arXiv:2604.27003 和 elfmem 看，外部记忆并不会自动解决持续学习；它只是把灾难性遗忘从参数更新搬到检索、表示、评分衰减和经验复用策略里。

#AI memory #agent memory #long-term memory #continual learning #memory evaluation #forgetting #personalization

2026/05/03 论文解读

依赖结构化记忆：ContextWeaver 对 Agent 长上下文的真正启发

从 arXiv:2604.23069 ContextWeaver 看，工具型 LLM agent 的记忆不只是在历史里检索相似片段，而是要保留当前行动真正依赖的早期证据、决策和执行反馈。

#AI memory #agent memory #long-term memory #context compression #RAG #memory evaluation

2026/05/02 架构优化

记忆作用域合约：AI Agent 长期记忆真正难的是边界，不是存储

从 2026-05-02 的 agent memory 产品面讨论、ChatGPT Project-only memory、Claude 个性化功能和 Mem0/Cloudflare 的工程材料看，生产级记忆系统必须先定义用户、项目、任务和运行审计的边界，再谈向量库、图谱和长上下文。

#AI memory #agent memory #long-term memory #personalization #memory evaluation #forgetting #RAG

2026/05/01 论文解读

经验压缩谱：为什么 AI 记忆系统不能只停在“存得更多”

从 arXiv:2604.15877 看，长期记忆、技能和规则不是三个孤立模块，而是同一条经验压缩轴上的不同粒度；真正缺失的是跨层晋升、降级和生命周期治理。

#AI memory #agent memory #long-term memory #context compression #agent skills #memory evaluation #forgetting

2026/04/29 开源项目分析

Hermes Agent 的记忆系统研究：为什么它不像 OpenClaw 那样把 Markdown 当核心事实源

从 NousResearch/hermes-agent 的官方文档和源码看，Hermes 的记忆系统由小容量常驻记忆、SQLite/FTS5 会话检索、外部记忆提供商和技能系统组成；它和 OpenClaw 的差异不在口号，而在事实源、召回路径、晋升机制和治理边界。

#Hermes Agent #OpenClaw #AI memory #long-term memory #agent memory #context compression #memory evaluation

2026/04/28 工程架构

AI 记忆系统正在变成基础设施，而不是提示词技巧

从 2026-04-28 的 agentic-db 发布和 n8n Memori 社区节点看，长期记忆正在向数据库、工作流和托管平台下沉；真正要评估的是写入治理、召回路径、遗忘机制和可观测性。

#AI memory #agent memory #Postgres #n8n #RAG #memory evaluation

2026/04/28 个人知识库

Obsidian 精细化使用指南：从笔记软件到可审计的个人 AI 记忆系统

系统介绍 Obsidian 的主要能力、实际使用流程、底层技术和 AI 工作流接法：Markdown vault、双向链接、Properties、Search、Canvas、Bases、CodeMirror、插件 API 与同步加密。

#Obsidian #AI memory #Markdown #PKM #knowledge graph #CodeMirror