草榴社区地址你的位置:失少女系列 > 草榴社区地址 > 麻豆 周处除三害 家务机器东谈主或将再更新?Chelsea Finn团队推出BID新算法,机器东谈主一键变奢睿
麻豆 周处除三害 家务机器东谈主或将再更新?Chelsea Finn团队推出BID新算法,机器东谈主一键变奢睿

发布日期:2024-09-06 20:32    点击次数:169

  

麻豆 周处除三害 家务机器东谈主或将再更新?Chelsea Finn团队推出BID新算法,机器东谈主一键变奢睿

斯坦福大学的 Chelsea Finn 团队又出新效果了麻豆 周处除三害。

Chelsea Finn 团队一直是斯坦福走在具身智能策划前沿的团队之一,之前火遍全网的 ALOHA 炒菜机器东谈主等于出自这个团队之手。团队领头东谈主 Chelsea Finn 的创业公司 Pi 更是创立不到一个月就拿下来自红杉成本、OpenAI 等公司的7000万好意思元融资。雷峰网雷峰网

最近,Chelsea Finn 团队在策划中发现,诚然延迟看成块大约栽培计谋捕捉时候依赖性的能力,但这么作念会减少对机器东谈主近期景况的不雅察,导致在随即环境中更容易出错。

为了克服这个辛苦,他们设备了一种双向解码(Bidirectional Decoding, BID)新式算法。BID 能将看成块化与闭环操作相迷惑,通过在每个时候步采样多个预计并寻找最优化的一个,增强推广序列的时候一致性,同期在随即环境中已毕自符合重新联想。

为了考证 BID 算法的效果,他们在 Franka Kitchen 数据集上进行了模拟测试,发现机器东谈主在家庭环境中的推崇还可以。他们还用 Franka Panda 机器东谈主作念了的确凿验,猖狂透露 BID 显贵提高了机器东谈主在主张迁顷刻的放弃得胜率。

这些测试不由得让东谈主联念念到了他们之前作念的炒菜机器东谈主,也许这个团队正联想把 BID 专揽在 ALOHA 上,准备给家务机器东谈主来个全面的本事升级。

值得一提的是,这个团队中有一半都是华东谈主面貌,之前设备 ALOHA 的也全是华东谈主学生。

目下,论文已在arXiv公开,相关代码也已开源。

论文标题:Bidirectional Decoding:Improving Action Chunking via Closed-Loop Resampling

论文地址:https://bid-robot.github.io/static/BID_paper.pdf

时势网站:https://bid-robot.github.io/

代码地址:https://github.com/YuejiangLIU/bid_diffusion

https://github.com/Jubayer-Hamid/bid_lerobot

论文概览策划问题

本文旨在搞定机器东谈主学习中的挑战,迥殊暖热看成分块,即在莫得中间重新联想的情况下预计和实施看成序列的流程,这些序列往买卖源于东谈主类示范。面对的挑战包括在捕捉时候依赖性与对随即环境中就怕变化的响应之间的衡量,以及不同示范之间的立场变异性较大。

该策划的动机在于通过对看成分块进行更潜入的分析和提供实用的解码算法,来增强机器东谈主系统的学习和实施流程。所要搞定的问题包括:

看成分块中时候依赖性与响应性之间的衡量

不同示范之间的立场变异性较大

需要一种实用的解码算法以栽培机器东谈主活动克隆的性能。

建议的规范

本文建议了双向解码(BID)规范。

BID 是一种推理算法,将看成分块与机器东谈主学习中的闭环操作相迷惑。它在每个时候步采样多个预计,并基于向后一致性(与先前有联想的对王人)和上前对比(与更强计谋的猖狂的接近度)来优化选拔。

这种抽象规范增强了长看成序列的时候一致性,同期保持了符合动态环境变化的生动性。BID在各式机器东谈主任务中显贵优于现存的闭环规范,代表了机器东谈主系统学习和实施流程的紧要转变。

实验与猖狂数据集

本文在三个数据集上进行了实验:Push-T、RoboMimic 和 Franka Kitchen。

关于Push-T数据集,本文在七个任务上评估了所建议的双向解码(BID)算法,包括将物体放入东谈主类手持的杯子中。实验中使用的机器东谈主是Franka Panda,配备了两台相机,提供256 x 256像素别离率的视觉不雅察。本文还评估了BID在宽广量和现存推理规范下的可推广性和兼容性。

关于RoboMimic数据集,本文使用了五个任务,即Lift、Can、Square、Transport和Tool Hang。每个任务的老到数据集包含300个从多个东谈主类演示中网罗的回合。

关于Franka Kitchen数据集,本文在波及四个或更多物体的测试案例上评估了学习到的计谋,这是一个具有挑战性但在家庭环境中内容专揽的机器东谈主操作任务。

的确天下实验

本文还通过两项本质天下实验进一步评估了建议的 BID。

动态放弃实验

他们共网罗了150个演示回合,包括50个干净且一致的演示和100个嘈杂且千般的演示。实验中使用的机器东谈主是 Franka Panda,并选择基于视觉的扩散计谋进行操作。

机器东谈主的任务是将其持手中的物体送入东谈主类手中的杯子中。每次演示包括四个主要阶段:(a) 随即开动化机器东谈主位置,(b) 接近主张杯子,(c) 在主张杯子近邻延缓,(d) 开释物品。主张杯子的位置可能会在演示流程中发生变化。

值得精通的是,BID 在动态缔造中的得胜率与静态缔造通常,这标明它有可能将看成块推广到省略情环境中。

动态拾取实验

本文评估了不同规范的性能,包括平方的开环和闭环采样、BID 的开环和闭环采样,以及 EMA 的闭环采样。

机器东谈主的任务是提起一个杯子,并将其放在近邻的碟子上。四个主要阶段是:(a) 开动化机器东谈主,(b) 接近主张杯子,(c) 收拢主张杯子,(d) 提起杯子,(e) 将杯子放到主张碟子上。主张杯子的位置可能会在一个流程中发生变化。

猖狂标明,在动态环境中,比拟其他规范,BID 的得胜率至少提高了2倍,同期在静态环境中保持了其性能。

BID本事解读

看成分块故意于对演示中的时候依赖性建模,但却葬送了对随即环境中就怕景况的响应能力。他们选拔通过闭环操作连结长的看成块来搞定这一问题。

他们的主要假定是,诚然任何一双样本分享疏浚潜在计谋的概率很低,但从巨额样本中找到一致的一双样本的可能性要高得多。这种直观促使他们将闭环看成分块问题雄厚为在每个时候步采样的一批联想中寻找最优看成。

其中 ? 是看成块蚁合,ℒ? 和 ℒ? (B和F都是下标,飞书文档打不出来)是两个揣测时候依赖性的模范,接下来将会翔实描画这两个模范。

ℒB 指的是逆向一致性。

这里,ρ 是一个衰减超参数,用于诠释省略情味随时候增长而加多的情况。这种后向赔本饱读吹相邻身手之间选择访佛的潜在计谋,同期允许缓缓符合不成料念念的过渡动态。

ℒF指的是正向对比度。

其中 ?+=?∖{?} 是强计谋 ? 预计的正蚁合,?− 是弱计谋 ?′ 预计的负蚁合,而 ? 是样本大小。

下图展示了逆向一致性和正向对比度模范对样本选拔的影响。

由于 BID 中的统统身手都可以并行计较,因此在当代 GPU 建立上,总体计较成本仍然适中。

团队先容Chelsea Finn

Chelsea Finn 博士毕业于加州大学伯克利分校,师从Sergey Levine。她曾在 Google DeepMind 责任过 6 年,目下担任斯坦福大学计较机科学与电子工程系的助理讲授,亦然 Pi 的连结首创东谈主。

Chelsea Finn 的策划兴味是机器东谈主和其他代理通过学习和交互发展泛泛智能活动的能力。她的实验室 IRIS 专注策划大边界机器东谈主交互智能,隶属于 SAIL 和 ML Group。

团队其他三位华东谈主学生包括:

Yuejiang Liu

Yuejiang Liu 是 IRIS 实验室的博士后,博士毕业于瑞士洛桑联邦理工学院。他专注于策划自监督学习、因果表征学习和测试时候符合,并将其专揽于计较机视觉和多代理系统。

Annie Xie

猪猪系列

Annie Xie 毕业于加州大学伯克利分校,曾在伯克利东谈主工智能策划 (BAIR)实验室和 Sergey Levine 一王人责任,目下是 Chelsea Finn 指引的博士生。她的策划要点是设备在最少东谈主工监督放学习的机器东谈主系统。

Maximilian Du

Maximilian Du 本年学士毕业于斯坦福大学,主修计较机科学、模样学(辅修)和创意写稿(辅修),在 Chelsea Finn 的 IRIS 实验室从事机器东谈主学习责任,目下是 Chelsea Finn 行将入学的博士生。雷峰网雷峰网



Powered by 失少女系列 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有