TenStep

Human-to-Robot Transfer

材料 0 综述 0 更新 2026-05-16

> 人类视频什么时候能真正变成机器人能力,不只是数据源问题,也是表示能力和预训练多样性问题。

正文

Human-to-Robot Transfer

人类视频什么时候能真正变成机器人能力,不只是数据源问题,也是表示能力和预训练多样性问题。

主题概述

这条主题关注 human video、human embodiment data 与 robot policy 之间的迁移。核心问题不是“人类数据多不多”,而是“模型什么时候开始有能力利用这些数据”。

当前知识库里的代表工作

当前判断

  • Human-to-Robot Transfer 这篇更强调“能力何时出现”
  • π0.7 更强调“多源数据如何被统一利用”
  • DexImit 更强调“人类视频如何被编译成物理可行的机器人数据”
  • 放在一起看,可以把问题理解成:
    • 预训练多样性负责让 shared representation 成熟
    • richer context / prompt 负责让这些能力在控制中被真正调用出来
    • 显式数据生成 pipeline 负责把一部分 human video 转成更接近机器人动作空间的 supervision

值得后续关注的问题

  • human data 在 pretraining 阶段和 finetuning 阶段的作用是否不同
  • human-to-robot transfer 与 cross-embodiment transfer 是否本质同源
  • 显式 data generation 与 VLA co-training 是替代关系,还是更适合组合使用
  • 这种能力的出现,更依赖模型规模还是数据多样性

相关页面

相关材料