材料库

材料浏览

返回知识库

主题路线

图谱导航

搜索

范围主题类型排序

论文 2026-05-15 Vision-Language-ActionHuman-to-Robot Transfer

DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

Hanwen Wang · Weizhi Zhao · Xiangyu Wang · Siyuan Huang · He Lin · Boyuan Zheng · Rongtao Xu · Gang Wang · Yao Mu · He Wang · Lue Fan · Hongsheng Li · Zhaoxiang Zhang · Tieniu Tan

单位 GalbotNLPR & MAIS, CASIAShanghai Jiao Tong UniversityMBZUAI

DexJoCo 的价值不在于提出一个新策略模型，而在于把“灵巧手到底比夹爪强在哪里、现有 VLA/模仿学习策略在哪些灵巧交互上失败”变成了可系统测量的问题。它提供 11 个功能型 MuJoCo 任务、1.1K 条人类示范、低成本手套遥操作采集系统，以及面向视觉随机化、动力学随机化、多任务训练和 action-head 适配的评测工具链。对后续灵巧手机器人学习来说，这篇更像基础设施论文：它给出了一个比 pick-and-place 更接近真实灵巧操作的压力测试场。

阅读材料

原文

论文 2026-05-13 Vision-Language-Action

AttenA+: Rectifying Action Inequality in Robotic Foundation Models

Daojie Peng · Fulong Ma · Jiahang Cao · Qiang Zhang · Xupeng Xie · Jian Guo · Ping Luo · Andrew F. Luo · Boyu Zhou · Jun Ma

单位 HKUST(GZ)HKUUSTCIDEA Research

AttenA+ 的核心价值是指出 VLA/WAM 训练里一个很朴素但长期被忽略的问题：机器人动作时间步并不等价，慢速精细动作往往比快速过渡动作更决定任务成败。它用速度场给低速关键动作更高 loss 权重，不改模型结构、不加参数，却能在 Libero、RoboTwin 2.0 和真实 Franka 任务上稳定抬高强基线的上限。值得记住的不是某个复杂网络，而是“动作序列的物理结构可以直接进入训练目标”。

阅读材料

原文

论文 2026-02-10 Human Video Robot Data GenerationHuman-to-Robot Transfer

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Juncheng Mu · Sizhe Yang · Yiming Bao · Hojin Bae · Tianming Wei · Linning Xu · Boyi Li · Huazhe Xu · Jiangmiao Pang

单位 NVIDIAShanghai AI LaboratoryTsinghua UniversityThe Chinese University of Hong Kong

DexImit 的价值在于把大量单目人类操作视频转成可训练的双手灵巧机器人数据，而不是直接把 human embodiment 当成 policy 输入。它通过重建、调度、动作生成和增强四阶段，把 Internet 或生成模型产生的人类视频变成物理可行的机器人轨迹，并在零真实机器人数据下支持 sim-to-real 部署。

阅读材料

原文

论文 Vision-Language-ActionHuman-to-Robot Transfer

Emergence of Human to Robot Transfer in Vision-Language-Action Models

Simar Kareer · Karl Pertsch · James Darpinian · Judy Hoffman · Danfei Xu · Sergey Levine · Chelsea Finn · Suraj Nair

单位 Physical IntelligenceGeorgia Institute of Technology

这篇论文的关键判断是：`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的，而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说，当机器人预训练覆盖足够多任务、场景和 embodiment 后，模型开始能够真正从 human video 中学到对机器人有用的东西。

阅读材料

原文

论文 Vision-Language-ActionLong-Horizon Memory for Robot Policies

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Marcel Torne · Karl Pertsch · Homer Walke · Kyle Vedder · Suraj Nair · Brian Ichter · Allen Z. Ren · Haohuan Wang · Jiaming Tang · Kyle Stachowicz · Karan Dhabalia · Michael Equi · Quan Vuong · Jost Tobias Springenberg · Sergey Levine · Chelsea Finn · Danny Driess

单位 Physical IntelligenceStanford UniversityUC BerkeleyMIT

这篇工作的重点，是把机器人策略里的“记忆”从单一历史帧堆叠，升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节，用文本长期记忆保留高层语义进度，从而把 VLA 推到更长时间跨度的任务上。

阅读材料

原文

暂无主图

论文 Vision-Language-Action

OpenVLA: An Open-Source Vision-Language-Action Model

Ted Xiao · Ashwin Balakrishna · Suraj Nair · Rafael Rafailov · Ethan Foster · Pannag Sanketi · Quan Vuong · Thomas Kollar · Benjamin Burchfiel · Russ Tedrake · Dorsa Sadigh · Sergey Levine · Percy Liang · Chelsea Finn

单位 Toyota Research InstituteGoogle DeepMindPhysical IntelligenceStanford University

OpenVLA 的价值不只是开源一个 VLA 模型，而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。

阅读材料

原文

论文 Vision-Language-ActionHuman-to-Robot Transfer

π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Bo Ai · Ali Amin · Raichelle Aniceto · Ashwin Balakrishna · Greg Balke · Kevin Black · George Bokinsky · Shihao Cao · Thomas Charbonnier · Vedant Choudhary · Foster Collins · Ken Conley · Grace Connors · James Darpinian · Karan Dhabalia · Maitrayee Dhaka · Jared DiCarlo · Danny Driess · Michael Equi · Adnan Esmail · Yunhao Fang · Chelsea Finn · Catherine Glossop · Thomas Godden · Ivan Goryachev · Lachlan Groom · Haroun Habeeb · Hunter Hancock · Karol Hausman · Gashon Hussein · Victor Hwang · Brian Ichter · Connor Jacobsen · Szymon Jakubczak · Rowan Jen · Tim Jones · Gregg Kammerer · Ben Katz · Liyiming Ke · Mairbek Khadikov · Chandra Kuchi · Marinda Lamb · Devin LeBlanc · Brendon LeCount · Sergey Levine · Xinyu Li · Adrian Li-Bell · Vladislav Lialin · Zhonglin Liang · Wallace Lim · Yao Lu · Enyu Luo · Vishnu Mano · Nandan Marwaha · Aikys Mongush · Liam Murphy · Suraj Nair · Tyler Patterson · Karl Pertsch · Allen Z. Ren · Gavin Schelske · Charvi Sharma · Baifeng Shi · Lucy Xiaoyang Shi · Laura Smith · Jost Tobias Springenberg · Kyle Stachowicz · Will Stoeckle · Jiaming Tang · Jimmy Tanner · Shalom Tekeste · Marcel Torne · Kyle Vedder · Quan Vuong · Anna Walling · Haohuan Wang · Jason Wang · XuDong Wang · Chris Whalen · Samuel Whitmore · Blake Williams · Charles Xu · Sukwon Yoo · Lili Yu · Wuming Zhang · Zhuoyang Zhang · Ury Zhilinsky

单位 Physical Intelligence

π0.7 的关键价值不只是把模型继续做大，而是把“可控的通才机器人策略”往前推了一步。它试图解决的核心问题是：当训练数据越来越杂时，机器人基础模型怎样既能吃下示范、失败轨迹、人类视频和网页数据，又不在推理时退化成平均化、含糊的动作。作者给出的答案是把“怎么做”也写进 prompt，包括子任务语言、子目标图像、质量/速度/错误等 episode metadata，让模型学会在多模态上下文里被 steer。

阅读材料

论文 Vision-Language-ActionOnline RL for VLA

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

Charles Xu · Jost Tobias Springenberg · Michael Equi · Ali Amin · Adnan Esmail · Sergey Levine · Liyiming Ke

单位 Physical Intelligence

这篇工作最重要的点，是给 VLA 和在线 RL 之间找到了一个足够轻量的接口。作者没有直接对整套大模型做昂贵 RL，而是让预训练 VLA 暴露一个紧凑的 `RL token`，再在这个表示上训练小型 actor-critic，从而把 VLA 的泛化能力和 real-world online RL 的样本效率拼接起来。

阅读材料

原文

论文 Vision-Language-ActionOnline RL for VLA

STEAM: Self-Supervised Temporal Ensemble Advantage Modeling for Real-World Robot Learning

Zhihao Liu · Qiuyi Gu · Yitao Wang · Dongming Qiao · Yixian Zhang · Shuaihang Chen · Liangzhi Shi · Tianxing Zhou · Zefang Huang · Kang Chen · Zhen Guo · Quanlu Zhang · Jincheng Yu · Xiaodan Liang · Guoliang Fan · Yu Wang · Feng Gao · Xinlei Chen · Chao Yu

单位 Striding AIInfinigence AIInstitute of Automation, Chinese Academy of SciencesTsinghua University

STEAM 值得记住的点，是它把真实机器人数据清洗问题改写成“逐帧 advantage 建模”：不用人工奖励、不用 VLM 打分，也不假设整条轨迹好坏一致，而是从专家轨迹内部的时间顺序中学习哪些 frame pair 代表推进、停滞或倒退。它尤其适合 VLA/机器人策略在真实 rollout、人工纠正和混合质量数据上继续提升：先找出真正推进任务的局部片段，再把这些片段作为 CFGRL 的高质量训练信号。

阅读材料

原文

第 1 页跳到页

材料浏览

最近材料

DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo