TenStep

Physical/Embodied Intelligence

研究范围

物理/具身智能总入口,覆盖感知、规划、控制、世界模型与 sim2real。

关注点

world modelsrobot manipulationsim2realplanning

范围说明

Physical/Embodied Intelligence 关注智能体如何在真实世界中感知、规划并执行动作,核心问题是把数据、模型、控制器与物理约束连接成稳定闭环。

关键问题

  • 数据、模型、控制器三者怎样形成稳定闭环?
  • sim2real 的主要瓶颈是数据覆盖还是策略表达?
  • 世界模型怎样才能真正为行动和规划服务?

主题路线

Human Video Robot Data Generation

> 这条主题关注如何把 human videos 编译成机器人能直接训练或执行的数据,而不是只把人类视频当作预训练语料。

2026-05-16

打开主题

Human-to-Robot Transfer

> 人类视频什么时候能真正变成机器人能力,不只是数据源问题,也是表示能力和预训练多样性问题。

2026-05-16

打开主题

Long-Horizon Memory for Robot Policies

> 长时程机器人控制不是只把上下文窗口拉长,而是要决定不同时间尺度的信息如何表示。

2026-05-11

打开主题

Online RL for VLA

> 通才策略已经有了,接下来的问题是怎样把它快速打磨到高精度 specialist 表现。

2026-05-11

打开主题

Vision-Language-Action

> 把视觉、语言和动作统一进同一策略建模框架,是当前具身智能主线之一。

2026-05-11

打开主题

最近材料

论文 2026-02-10

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

DexImit 的价值在于把大量单目人类操作视频转成可训练的双手灵巧机器人数据,而不是直接把 human embodiment 当成 policy 输入。它通过重建、调度、动作生成和增强四阶段,把 Internet 或生成模型产生的人类视频变成物理可行的机器人轨迹,并在零真实机器人数据下支持 sim-to-real 部署。

论文

Emergence of Human to Robot Transfer in Vision-Language-Action Models

这篇论文的关键判断是:`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的,而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说,当机器人预训练覆盖足够多任务、场景和 embodiment 后,模型开始能够真正从 human video 中学到对机器人有用的东西。

论文

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

这篇工作的重点,是把机器人策略里的“记忆”从单一历史帧堆叠,升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节,用文本长期记忆保留高层语义进度,从而把 VLA 推到更长时间跨度的任务上。

论文

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA 的价值不只是开源一个 VLA 模型,而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。

论文

π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

π0.7 的关键价值不只是把模型继续做大,而是把“可控的通才机器人策略”往前推了一步。它试图解决的核心问题是:当训练数据越来越杂时,机器人基础模型怎样既能吃下示范、失败轨迹、人类视频和网页数据,又不在推理时退化成平均化、含糊的动作。作者给出的答案是把“怎么做”也写进 prompt,包括子任务语言、子目标图像、质量/速度/错误等 episode metadata,让模型学会在多模态上下文里被 steer。

论文

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

这篇工作最重要的点,是给 VLA 和在线 RL 之间找到了一个足够轻量的接口。作者没有直接对整套大模型做昂贵 RL,而是让预训练 VLA 暴露一个紧凑的 `RL token`,再在这个表示上训练小型 actor-critic,从而把 VLA 的泛化能力和 real-world online RL 的样本效率拼接起来。