TenStep

Online RL for VLA

材料 0 综述 0 更新 2026-05-11

> 通才策略已经有了,接下来的问题是怎样把它快速打磨到高精度 specialist 表现。

正文

Online RL for VLA

通才策略已经有了,接下来的问题是怎样把它快速打磨到高精度 specialist 表现。

主题概述

这条主题关注 VLA 预训练之后的在线适配。核心问题不是“VLA 能不能泛化”,而是“当真实机器人需要更高精度、更高速度时,怎么以较低样本成本继续优化它”。

当前知识库里的代表工作

当前判断

  • RLT 给出的是一条很现实的 engineering 路线:不要重训整个 VLA,只给它暴露一个适合 RL 的接口
  • π0.7 则从另一个角度说明,generalist policy 最终仍然需要 specialist-style refinement,只是 refinement 的位置和形式不同

值得后续关注的问题

  • online RL 的接口应该放在 VLA 哪一层最合适
  • 是 refinement head 更重要,还是 reward design 更重要
  • 对不同 embodiment,这类轻量接口是否还能保持稳定性

相关页面

相关材料