TenStep

Human Video Robot Data Generation

材料 0 综述 0 更新 2026-05-16

> 这条主题关注如何把 human videos 编译成机器人能直接训练或执行的数据,而不是只把人类视频当作预训练语料。

正文

Human Video Robot Data Generation

这条主题关注如何把 human videos 编译成机器人能直接训练或执行的数据,而不是只把人类视频当作预训练语料。

主题概述

Human video 覆盖大量自然操作、工具使用和长时程任务,但人手和机器人灵巧手之间存在 embodiment gap。这个主题关注一类更工程化的路线:先从视频里恢复手-物体交互,再生成物理可行的机器人轨迹或 demonstrations,最后用增强和过滤让数据能服务真实部署。

为什么重要

  • 它绕开了“直接从人类视频学动作”的动作空间不一致问题。
  • 它把互联网视频、人工拍摄视频、甚至视频生成模型产物都变成潜在机器人数据来源。
  • 它和 VLA co-training 互补:显式数据生成提供更接近机器人动作空间的监督,VLA 负责吸收和泛化。

当前知识库里的代表工作

当前理解

  • DexImit 的核心贡献不是一个新策略网络,而是一个 human-video-to-robot-data compiler。
  • 这条路线的关键难点在数据生成链路的每一层:几何尺度、遮挡、手-物体接触、双手协作调度、轨迹物理可行性和真实传感器噪声。
  • 相比直接 human-to-robot representation transfer,它更可解释,也更容易插入检查点和过滤器;但它会受到重建误差和模块串联误差限制。

和相关主题的关系

  • Human-to-Robot Transfer 关注人类数据什么时候变成机器人能力;本主题更关注一种具体机制:把人类视频显式转换成机器人数据。
  • Vision-Language-Action 关注 foundation policy 的输入与控制接口;本主题生成的数据未来可以成为 VLA 训练或微调的上游材料。

值得后续关注的问题

  • human video data engine 与 VLA co-training 如何组合,才不会重复引入噪声?
  • 是否可以用更强的 3D reconstruction / world model 降低对人工修正的依赖?
  • 自动过滤是否足以支撑大规模数据生成,还是仍需要人工验收关键样本?

相关页面

相关材料