MEM: Multi-Scale Embodied Memory for Vision Language Action Models

返回材料库

论文 Vision-Language-Action Long-Horizon Memory for Robot Policies

Marcel Torne · Karl Pertsch · Homer Walke · Kyle Vedder · Suraj Nair · Brian Ichter · Allen Z. Ren · Haohuan Wang 等

首要单位：Physical Intelligence Physical IntelligenceStanford UniversityUC BerkeleyMIT Physical Intelligence

一句话结论

这篇工作的重点，是把机器人策略里的“记忆”从单一历史帧堆叠，升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节，用文本长期记忆保留高层语义进度，从而把 VLA 推到更长时间跨度的任务上。

链接

arXiv 论文主页打开 HTML 在线正文打开 PDF 论文文件打开中英 hjfy 双语阅读打开

关键词

long-horizon-memory

摘要

中文摘要

传统端到端机器人学习中的记忆，通常只是把过去一段观测序列输入给策略。然而在复杂的多阶段真实任务中，机器人记忆必须在多个粒度上表示过去事件：既要有记录高层语义进度的长期记忆，也要有补偿遮挡和保留近期细节的短期记忆。作者的核心观点是，长时程机器人控制需要把多种模态结合起来，分别承载这些不同层次的抽象。为此他们提出 MEM，将视频短期记忆和文本长期记忆结合起来，使策略能够完成长达十五分钟的任务，并在上下文中更智能地调整 manipulation 策略。

英文摘要

Conventionally, memory in end-to-end robotic learning involves inputting a sequence of past observations into the learned policy. However, in complex multi-stage real-world tasks, the robot's memory must represent past events at multiple levels of granularity: from long-term memory that captures abstracted semantic concepts (e.g., a robot cooking dinner should remember which stages of the recipe are already done) to short-term memory that captures recent events and compensates for occlusions (e.g., a robot remembering the object it wants to pick up once its arm occludes it). In this work, our main insight is that an effective memory architecture for long-horizon robotic control should combine multiple modalities to capture these different levels of abstraction. We introduce Multi-Scale Embodied Memory (MEM), an approach for mixed-modal long-horizon memory in robot policies. MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. Together, they enable robot policies to perform tasks that span up to fifteen minutes, like cleaning up a kitchen, or preparing a grilled cheese sandwich. Additionally, we find that memory enables MEM policies to intelligently adapt manipulation strategies in-context.

直观理解

如果普通 VLA 的记忆更像“最近几秒发生了什么”，那 MEM 想解决的是“机器人十分钟前做过什么、现在做到哪一步、接下来该切到哪个阶段”。它试图让策略同时记住局部感知细节和全局任务进度。

主要图

主要图

背景与问题

为什么做

长时程机器人任务不是简单地看当前帧就能决策。比如做饭、整理厨房、做三明治，机器人既要记住最近的遮挡和物体位置，也要记住更长时间的任务阶段进展。

问题缺口

传统 end-to-end policy 的记忆往往只是在输入里堆过去观测，难以同时兼顾短期视觉细节和长期语义状态。作者要解决的是：怎样让 VLA 在长达十几分钟的任务中真正具备“多层次记忆”。

方法

方法概述

MEM 试图把机器人策略中的记忆做成分层结构，而不是简单地把更多历史帧堆进上下文窗口。它把 memory 分成两类：短期 dense visual memory 和长期 semantic memory，并分别用视频编码器和语言记忆来承载。

核心机制

高层 policy 更新 language memory，用于记录长期语义事件与任务阶段
低层 policy 使用短期 observation-based memory，处理遮挡、近时感知和局部调整
两类 memory 一起接入 VLA，使策略既能记住高层进度，也能保留近期视觉细节

方法拆解

语言长期记忆负责存“已经做过什么、还没做什么、当前任务阶段是什么”
视频短期记忆通过高效 video encoder 压缩近期视觉历史，避免直接把长序列原样送进 backbone
MEM 被集成进 π0.6 这类通用 VLA，使其能在长时程任务上保持 runtime 可接受
论文还强调 memory 不只是提升 recall，还能帮助策略在上下文里改变 manipulation strategy

关键要点

长期语义记忆和短期视觉记忆必须分开建模
memory 设计要考虑实时性，否则长历史会让推理延迟不可用
这是把 VLA 往 long-horizon agent 化推进的一条关键路线

结果

MEM 支持跨度长达 15 分钟 的任务
代表任务包括 cleanup kitchen、preparing a grilled cheese sandwich 等多阶段真实操作
论文强调：没有 memory 的强 generalist policy 如 π0.6，在这些任务上明显不足；而组合短期视频记忆和长期语言记忆后，性能显著提升
除了完成长时程任务，MEM 还支持 in-context adaptation，例如根据任务过程动态改变 grasp 高度、开门方向等 manipulation strategy

结果速览表

维度	结论
记忆类型	视频短期 + 文本长期
目标问题	长时程多阶段控制
实现重点	记忆分层与高效编码
代表能力	最长 15 分钟任务

洞察

这篇论文最重要的贡献，是把机器人 memory 从“上下文长度问题”提升成了“表示分层问题”。作者不是简单让模型看更多历史，而是明确区分哪些信息应该以视觉形式保留、哪些信息应该以语义形式长期保存。

和已有方法的关系

相对直接堆历史帧的做法，它更关注 memory abstraction
相对只做 low-level history encoder 的路线，它把 long-horizon semantic progress 也纳入体系
相对 agent 式高层规划，这篇更接近把 memory 直接内嵌进 policy 结构

可借鉴点

未来 long-horizon VLA 很可能都需要显式 memory decomposition
language memory 很适合作为任务阶段与语义进度的载体
这篇对“具身智能为什么需要 memory module”给出了很有说服力的结构性答案

风险与判断

局限

长期语言记忆如何更新、压缩与纠错，本身就是新的复杂系统问题
多模态 memory 会显著增加训练和系统设计复杂度
这条路线虽然强，但也意味着更高的工程门槛和更重的模型维护成本

适用场景

长时程多阶段 manipulation
需要显式任务进度管理的具身系统
面向 kitchen cleanup、recipe execution 这类真实长流程场景

最终判断

这篇是你这套 wiki 里非常值得保留的 memory for embodied intelligence 核心论文，后续很适合做 topic 页的骨架。

图表

方法图

结果图

Vision-Language-Action

> 把视觉、语言和动作统一进同一策略建模框架，是当前具身智能主线之一。

打开主题

Long-Horizon Memory for Robot Policies

> 长时程机器人控制不是只把上下文窗口拉长，而是要决定不同时间尺度的信息如何表示。

打开主题

继续阅读

Emergence of Human to Robot Transfer in Vision-Language-Action Models

这篇论文的关键判断是：`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的，而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说，当机器人预训练覆盖足够多任务、场景和 embodiment 后，模型开始能够真正从 human video 中学到对机器人有用的东西。

打开阅读

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA 的价值不只是开源一个 VLA 模型，而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。

打开阅读

MEM: Multi-Scale Embodied Memory for Vision Language Action Models