Physical/Embodied Intelligence • TenStep

研究范围

物理/具身智能总入口，覆盖感知、规划、控制、世界模型与 sim2real。

返回知识库

浏览材料

综述 0 主题 5 材料 9

关注点

world modelsrobot manipulationsim2realplanning

范围说明

Physical/Embodied Intelligence 关注智能体如何在真实世界中感知、规划并执行动作，核心问题是把数据、模型、控制器与物理约束连接成稳定闭环。

关键问题

数据、模型、控制器三者怎样形成稳定闭环？
sim2real 的主要瓶颈是数据覆盖还是策略表达？
世界模型怎样才能真正为行动和规划服务？

主题路线

Online RL for VLA

> 通才策略已经有了，接下来的问题是怎样把它快速打磨到高精度 specialist 表现。

2026-07-06

打开主题

Vision-Language-Action

> 把视觉、语言和动作统一进同一策略建模框架，是当前具身智能主线之一。

2026-06-30

打开主题

Human-to-Robot Transfer

> 人类视频什么时候能真正变成机器人能力，不只是数据源问题，也是表示能力和预训练多样性问题。

2026-06-26

打开主题

Human Video Robot Data Generation

> 这条主题关注如何把 human videos 编译成机器人能直接训练或执行的数据，而不是只把人类视频当作预训练语料。

2026-05-16

打开主题

Long-Horizon Memory for Robot Policies

> 长时程机器人控制不是只把上下文窗口拉长，而是要决定不同时间尺度的信息如何表示。

2026-05-11

打开主题

最近材料

查看全部材料

论文 2026-05-15

DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

DexJoCo 的价值不在于提出一个新策略模型，而在于把“灵巧手到底比夹爪强在哪里、现有 VLA/模仿学习策略在哪些灵巧交互上失败”变成了可系统测量的问题。它提供 11 个功能型 MuJoCo 任务、1.1K 条人类示范、低成本手套遥操作采集系统，以及面向视觉随机化、动力学随机化、多任务训练和 action-head 适配的评测工具链。对后续灵巧手机器人学习来说，这篇更像基础设施论文：它给出了一个比 pick-and-place 更接近真实灵巧操作的压力测试场。

阅读材料

原文

论文 2026-05-13

AttenA+: Rectifying Action Inequality in Robotic Foundation Models

AttenA+ 的核心价值是指出 VLA/WAM 训练里一个很朴素但长期被忽略的问题：机器人动作时间步并不等价，慢速精细动作往往比快速过渡动作更决定任务成败。它用速度场给低速关键动作更高 loss 权重，不改模型结构、不加参数，却能在 Libero、RoboTwin 2.0 和真实 Franka 任务上稳定抬高强基线的上限。值得记住的不是某个复杂网络，而是“动作序列的物理结构可以直接进入训练目标”。

阅读材料

原文

论文 2026-02-10

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

DexImit 的价值在于把大量单目人类操作视频转成可训练的双手灵巧机器人数据，而不是直接把 human embodiment 当成 policy 输入。它通过重建、调度、动作生成和增强四阶段，把 Internet 或生成模型产生的人类视频变成物理可行的机器人轨迹，并在零真实机器人数据下支持 sim-to-real 部署。

阅读材料

原文

论文

Emergence of Human to Robot Transfer in Vision-Language-Action Models

这篇论文的关键判断是：`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的，而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说，当机器人预训练覆盖足够多任务、场景和 embodiment 后，模型开始能够真正从 human video 中学到对机器人有用的东西。

阅读材料

原文

论文

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

这篇工作的重点，是把机器人策略里的“记忆”从单一历史帧堆叠，升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节，用文本长期记忆保留高层语义进度，从而把 VLA 推到更长时间跨度的任务上。

阅读材料

原文

论文

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA 的价值不只是开源一个 VLA 模型，而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。

阅读材料

原文