TenStep

Vision-Language-Action

材料 0 综述 0 更新 2026-05-11

> 把视觉、语言和动作统一进同一策略建模框架,是当前具身智能主线之一。

正文

Vision-Language-Action

把视觉、语言和动作统一进同一策略建模框架,是当前具身智能主线之一。

这条主题在讲什么

VLA 的核心不是“把图像和文本都喂给机器人”,而是把机器人控制问题放进 foundation model 语境里,让预训练、多任务泛化、迁移、微调和跨 embodiment 学习都能在一套统一框架里讨论。

为什么重要

  • VLA 是现在连接大模型能力与机器人执行能力的主干路线
  • 它把机器人学习从 task-specific policy 推向 reusable foundation policy
  • 很多后续方向,本质上都是在回答“VLA 还缺什么”
    • 更强的可控性
    • 更长的记忆
    • 更高的精度
    • 更好的跨 embodiment 迁移
    • 更低成本地利用人类数据

当前知识库里的几条子路线

当前判断

这几篇放在一起看,VLA 主线已经很清楚:

  • OpenVLA 解决“基座是否开放、可训、可部署”
  • π0.7 解决“多源数据如何通过 prompt 变成可控能力”
  • RLT 解决“如何把通才策略继续打磨到高精度”
  • MEM 解决“如何把策略延长到 long-horizon”
  • Human-to-Robot Transfer 解决“如何把人类数据真正吸纳进来”

也就是说,VLA 不再只是一个单点模型设计问题,而已经分化成一套系统问题族。

相关页面

相关材料