MEM: Multi-Scale Embodied Memory for Vision Language Action Models
MEM: Multi-Scale Embodied Memory for Vision Language Action Models
Marcel Torne · Karl Pertsch · Homer Walke · Kyle Vedder · Suraj Nair · Brian Ichter · Allen Z. Ren · Haohuan Wang 等
一句话结论
这篇工作的重点,是把机器人策略里的“记忆”从单一历史帧堆叠,升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节,用文本长期记忆保留高层语义进度,从而把 VLA 推到更长时间跨度的任务上。
关键词
摘要
中文摘要
传统端到端机器人学习中的记忆,通常只是把过去一段观测序列输入给策略。然而在复杂的多阶段真实任务中,机器人记忆必须在多个粒度上表示过去事件:既要有记录高层语义进度的长期记忆,也要有补偿遮挡和保留近期细节的短期记忆。作者的核心观点是,长时程机器人控制需要把多种模态结合起来,分别承载这些不同层次的抽象。为此他们提出 MEM,将视频短期记忆和文本长期记忆结合起来,使策略能够完成长达十五分钟的任务,并在上下文中更智能地调整 manipulation 策略。
英文摘要
Conventionally, memory in end-to-end robotic learning involves inputting a sequence of past observations into the learned policy. However, in complex multi-stage real-world tasks, the robot's memory must represent past events at multiple levels of granularity: from long-term memory that captures abstracted semantic concepts (e.g., a robot cooking dinner should remember which stages of the recipe are already done) to short-term memory that captures recent events and compensates for occlusions (e.g., a robot remembering the object it wants to pick up once its arm occludes it). In this work, our main insight is that an effective memory architecture for long-horizon robotic control should combine multiple modalities to capture these different levels of abstraction. We introduce Multi-Scale Embodied Memory (MEM), an approach for mixed-modal long-horizon memory in robot policies. MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. Together, they enable robot policies to perform tasks that span up to fifteen minutes, like cleaning up a kitchen, or preparing a grilled cheese sandwich. Additionally, we find that memory enables MEM policies to intelligently adapt manipulation strategies in-context.
直观理解
如果普通 VLA 的记忆更像“最近几秒发生了什么”,那 MEM 想解决的是“机器人十分钟前做过什么、现在做到哪一步、接下来该切到哪个阶段”。它试图让策略同时记住局部感知细节和全局任务进度。

主要图
背景与问题
为什么做
长时程机器人任务不是简单地看当前帧就能决策。比如做饭、整理厨房、做三明治,机器人既要记住最近的遮挡和物体位置,也要记住更长时间的任务阶段进展。
问题缺口
传统 end-to-end policy 的记忆往往只是在输入里堆过去观测,难以同时兼顾短期视觉细节和长期语义状态。作者要解决的是:怎样让 VLA 在长达十几分钟的任务中真正具备“多层次记忆”。
方法
方法概述
方法概述: MEM 试图把机器人策略中的记忆做成分层结构,而不是简单地把更多历史帧堆进上下文窗口。它把 memory 分成两类:短期 dense visual memory 和长期 semantic memory,并分别用视频编码器和语言记忆来承载。
核心机制:
- 高层 policy 更新 language memory,用于记录长期语义事件与任务阶段
- 低层 policy 使用短期 observation-based memory,处理遮挡、近时感知和局部调整
- 两类 memory 一起接入 VLA,使策略既能记住高层进度,也能保留近期视觉细节
方法拆解:
- 语言长期记忆负责存“已经做过什么、还没做什么、当前任务阶段是什么”
- 视频短期记忆通过高效 video encoder 压缩近期视觉历史,避免直接把长序列原样送进 backbone
- MEM 被集成进 π0.6 这类通用 VLA,使其能在长时程任务上保持 runtime 可接受
- 论文还强调 memory 不只是提升 recall,还能帮助策略在上下文里改变 manipulation strategy

方法图
关键要点:
- 长期语义记忆和短期视觉记忆必须分开建模
- memory 设计要考虑实时性,否则长历史会让推理延迟不可用
- 这是把 VLA 往 long-horizon agent 化推进的一条关键路线
核心机制
- 高层 policy 更新 language memory,用于记录长期语义事件与任务阶段
- 低层 policy 使用短期 observation-based memory,处理遮挡、近时感知和局部调整
- 两类 memory 一起接入 VLA,使策略既能记住高层进度,也能保留近期视觉细节
方法拆解
- 语言长期记忆负责存“已经做过什么、还没做什么、当前任务阶段是什么”
- 视频短期记忆通过高效 video encoder 压缩近期视觉历史,避免直接把长序列原样送进 backbone
- MEM 被集成进 π0.6 这类通用 VLA,使其能在长时程任务上保持 runtime 可接受
- 论文还强调 memory 不只是提升 recall,还能帮助策略在上下文里改变 manipulation strategy
关键要点
- 长期语义记忆和短期视觉记忆必须分开建模
- memory 设计要考虑实时性,否则长历史会让推理延迟不可用
- 这是把 VLA 往 long-horizon agent 化推进的一条关键路线
结果
- MEM 支持跨度长达
15 分钟的任务 - 代表任务包括 cleanup kitchen、preparing a grilled cheese sandwich 等多阶段真实操作
- 论文强调:没有 memory 的强 generalist policy 如 π0.6,在这些任务上明显不足;而组合短期视频记忆和长期语言记忆后,性能显著提升
- 除了完成长时程任务,MEM 还支持 in-context adaptation,例如根据任务过程动态改变 grasp 高度、开门方向等 manipulation strategy
关键创新
- 长期语义记忆和短期视觉记忆必须分开建模
- memory 设计要考虑实时性,否则长历史会让推理延迟不可用
- 这是把 VLA 往 long-horizon agent 化推进的一条关键路线
结果速览表
| 维度 | 结论 |
|---|---|
| 记忆类型 | 视频短期 + 文本长期 |
| 目标问题 | 长时程多阶段控制 |
| 实现重点 | 记忆分层与高效编码 |
| 代表能力 | 最长 15 分钟任务 |
洞察
- 这篇论文最重要的贡献,是把机器人 memory 从“上下文长度问题”提升成了“表示分层问题”。作者不是简单让模型看更多历史,而是明确区分哪些信息应该以视觉形式保留、哪些信息应该以语义形式长期保存。
和已有方法的关系
- 相对直接堆历史帧的做法,它更关注 memory abstraction
- 相对只做 low-level history encoder 的路线,它把 long-horizon semantic progress 也纳入体系
- 相对 agent 式高层规划,这篇更接近把 memory 直接内嵌进 policy 结构
可借鉴点
- 未来 long-horizon VLA 很可能都需要显式 memory decomposition
- language memory 很适合作为任务阶段与语义进度的载体
- 这篇对“具身智能为什么需要 memory module”给出了很有说服力的结构性答案
风险与判断
局限
- 长期语言记忆如何更新、压缩与纠错,本身就是新的复杂系统问题
- 多模态 memory 会显著增加训练和系统设计复杂度
- 这条路线虽然强,但也意味着更高的工程门槛和更重的模型维护成本
适用场景
- 长时程多阶段 manipulation
- 需要显式任务进度管理的具身系统
- 面向 kitchen cleanup、recipe execution 这类真实长流程场景
最终判断
这篇是你这套 wiki 里非常值得保留的 memory for embodied intelligence 核心论文,后续很适合做 topic 页的骨架。
图表
相关主题
继续阅读
上一篇
Emergence of Human to Robot Transfer in Vision-Language-Action Models
这篇论文的关键判断是:`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的,而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说,当机器人预训练覆盖足够多任务、场景和 embodiment 后,模型开始能够真正从 human video 中学到对机器人有用的东西。
下一篇
OpenVLA: An Open-Source Vision-Language-Action Model
OpenVLA 的价值不只是开源一个 VLA 模型,而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。