正文

Online RL for VLA

通才策略已经有了，接下来的问题是怎样把它快速打磨到高精度 specialist 表现。

这条主题关注 VLA 预训练之后的在线适配。核心问题不是“VLA 能不能泛化”，而是“当真实机器人需要更高精度、更高速度时，怎么以较低样本成本继续优化它”。

来源: RL Token: Bootstrapping Online RL with Vision-Language-Action Models 代表作。通过 RL token 把预训练 VLA 与轻量 actor-critic 接起来，让 online RL 重点修正 critical phase。
来源: STEAM: Self-Supervised Temporal Ensemble Advantage Modeling for Real-World Robot Learning 从另一个侧面补齐 online/refinement 闭环：它不设计新 VLA 接口，而是用专家轨迹的时间结构学习 frame-level advantage，从人工纠正、失败 rollout 和专家示范中筛出真正推进任务的局部片段，再接入 CFGRL。
来源: π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities 虽然主体不是 RL 论文，但它明确展示了 generalist policy 可以蒸馏和吸收 specialist 经验，也说明 online optimization 与 foundation policy 不是对立关系。

RLT 给出的是一条很现实的 engineering 路线：不要重训整个 VLA，只给它暴露一个适合 RL 的接口
STEAM 补的是数据质量与 credit assignment：真实机器人数据不是整条好/坏，而是需要逐帧识别哪些片段真正推进任务
π0.7 则从另一个角度说明，generalist policy 最终仍然需要 specialist-style refinement，只是 refinement 的位置和形式不同