材料库
DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos
Juncheng Mu · Sizhe Yang · Yiming Bao · Hojin Bae · Tianming Wei · Linning Xu · Boyi Li · Huazhe Xu · Jiangmiao Pang
DexImit 的价值在于把大量单目人类操作视频转成可训练的双手灵巧机器人数据,而不是直接把 human embodiment 当成 policy 输入。它通过重建、调度、动作生成和增强四阶段,把 Internet 或生成模型产生的人类视频变成物理可行的机器人轨迹,并在零真实机器人数据下支持 sim-to-real 部署。
Emergence of Human to Robot Transfer in Vision-Language-Action Models
Simar Kareer · Karl Pertsch · James Darpinian · Judy Hoffman · Danfei Xu · Sergey Levine · Chelsea Finn · Suraj Nair
这篇论文的关键判断是:`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的,而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说,当机器人预训练覆盖足够多任务、场景和 embodiment 后,模型开始能够真正从 human video 中学到对机器人有用的东西。
MEM: Multi-Scale Embodied Memory for Vision Language Action Models
Marcel Torne · Karl Pertsch · Homer Walke · Kyle Vedder · Suraj Nair · Brian Ichter · Allen Z. Ren · Haohuan Wang · Jiaming Tang · Kyle Stachowicz · Karan Dhabalia · Michael Equi · Quan Vuong · Jost Tobias Springenberg · Sergey Levine · Chelsea Finn · Danny Driess
这篇工作的重点,是把机器人策略里的“记忆”从单一历史帧堆叠,升级成多尺度、多模态的长期记忆结构。MEM 用视频短期记忆处理最近视觉细节,用文本长期记忆保留高层语义进度,从而把 VLA 推到更长时间跨度的任务上。
OpenVLA: An Open-Source Vision-Language-Action Model
Ted Xiao · Ashwin Balakrishna · Suraj Nair · Rafael Rafailov · Ethan Foster · Pannag Sanketi · Quan Vuong · Thomas Kollar · Benjamin Burchfiel · Russ Tedrake · Dorsa Sadigh · Sergey Levine · Percy Liang · Chelsea Finn
OpenVLA 的价值不只是开源一个 VLA 模型,而是把可训练、可微调、可部署的完整开源机器人大模型工作流真正落到了实践层面。
π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
Bo Ai · Ali Amin · Raichelle Aniceto · Ashwin Balakrishna · Greg Balke · Kevin Black · George Bokinsky · Shihao Cao · Thomas Charbonnier · Vedant Choudhary · Foster Collins · Ken Conley · Grace Connors · James Darpinian · Karan Dhabalia · Maitrayee Dhaka · Jared DiCarlo · Danny Driess · Michael Equi · Adnan Esmail · Yunhao Fang · Chelsea Finn · Catherine Glossop · Thomas Godden · Ivan Goryachev · Lachlan Groom · Haroun Habeeb · Hunter Hancock · Karol Hausman · Gashon Hussein · Victor Hwang · Brian Ichter · Connor Jacobsen · Szymon Jakubczak · Rowan Jen · Tim Jones · Gregg Kammerer · Ben Katz · Liyiming Ke · Mairbek Khadikov · Chandra Kuchi · Marinda Lamb · Devin LeBlanc · Brendon LeCount · Sergey Levine · Xinyu Li · Adrian Li-Bell · Vladislav Lialin · Zhonglin Liang · Wallace Lim · Yao Lu · Enyu Luo · Vishnu Mano · Nandan Marwaha · Aikys Mongush · Liam Murphy · Suraj Nair · Tyler Patterson · Karl Pertsch · Allen Z. Ren · Gavin Schelske · Charvi Sharma · Baifeng Shi · Lucy Xiaoyang Shi · Laura Smith · Jost Tobias Springenberg · Kyle Stachowicz · Will Stoeckle · Jiaming Tang · Jimmy Tanner · Shalom Tekeste · Marcel Torne · Kyle Vedder · Quan Vuong · Anna Walling · Haohuan Wang · Jason Wang · XuDong Wang · Chris Whalen · Samuel Whitmore · Blake Williams · Charles Xu · Sukwon Yoo · Lili Yu · Wuming Zhang · Zhuoyang Zhang · Ury Zhilinsky
π0.7 的关键价值不只是把模型继续做大,而是把“可控的通才机器人策略”往前推了一步。它试图解决的核心问题是:当训练数据越来越杂时,机器人基础模型怎样既能吃下示范、失败轨迹、人类视频和网页数据,又不在推理时退化成平均化、含糊的动作。作者给出的答案是把“怎么做”也写进 prompt,包括子任务语言、子目标图像、质量/速度/错误等 episode metadata,让模型学会在多模态上下文里被 steer。
RL Token: Bootstrapping Online RL with Vision-Language-Action Models
Charles Xu · Jost Tobias Springenberg · Michael Equi · Ali Amin · Adnan Esmail · Sergey Levine · Liyiming Ke
这篇工作最重要的点,是给 VLA 和在线 RL 之间找到了一个足够轻量的接口。作者没有直接对整套大模型做昂贵 RL,而是让预训练 VLA 暴露一个紧凑的 `RL token`,再在这个表示上训练小型 actor-critic,从而把 VLA 的泛化能力和 real-world online RL 的样本效率拼接起来。
最近材料
2026-02-10
DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos
DexImit 的价值在于把大量单目人类操作视频转成可训练的双手灵巧机器人数据,而不是直接把 human embodiment 当成 policy 输入。它通过重建、调度、动作生成和增强四阶段,把 Internet 或生成模型产生的人类视频变成物理可行的机器人轨迹,并在零真实机器人数据下支持 sim-to-real 部署。
打开阅读