首页 > 编程知识 正文

浙大机械系想研究机器人(浙大国智机器人)

时间:2023-05-03 09:27:59 阅读:86911 作者:758

如果机器人遇到强化学习,会产生什么样的火花?

一个叫csdwn的机器人,生动地表演着。

照片| csdwn (来源:回答者) ) )

最近,24岁的中国南昌小伙愤怒的白羊及其所属团队通过强化学习教csdwn走路,现在还记得蹲下走路和负重走路等。

(资料来源:答复者)

相关论文以《双足机器人鲁棒参数化运动控制的强化学习》 (reinforcementlearningforrobustparameterizedlocomotioncontrolofbipedalrobots )为题,收录于机器人国际学术顶会ICRA。

照片|相关实验(来源:回答者) )

通过强化学习,可以自己走路,进行自我恢复。 在现实世界中,通过重复实验来训练大型机器人是很危险的,为了解决这些问题,生气的白羊所在的小组使用了两个不同的模拟环境。

照片|室内考试(来源:回答者) )

在研究中,虚拟版本的csdwn从与环境相互作用生成的大量数据中学习稳定的步态。

学习的步行控制器被转移到SimMechanics这个第二个模拟环境中进行验证,这个环境具有更高的正确性,可以模拟现实世界的物理过程,但是模拟的执行速度会变慢。

通过使用在模拟环境中学习的步行控制装置,csdwn可以非常顺利地步行,而无需进行额外的微调。 不仅仅可以像人类一样前后左右行走,还可以蹲下走路,可以承受意想不到的负荷,还可以从强行按压导致的失稳状态中恢复过来。

例如,在测试期间,csdwn损伤了右脚的两个电机,但是可以调整和适应步行策略。

机器人如何更鲁棒?答案是强化学习

csdwn是生气的有白羊的混合机器人组实验室,从美国的Agility Robotics公司买来的。 高度约1米多,内部有10个马达和20个自由度。

照片|实验中的csdwn (来源:回答者) )。

据他介绍,csdwn于2017年首次开始销售,从2019年开始接触,目前正在研究两年多。

买下后,它主要用于控制算法和导航控制算法等不同算法的测试和验证。 在生气的白羊那里,csdwn就像一个研究平台。

其实,足式机器人的核心是控制算法。 在研究中,愤怒的白羊主要使用Python进行编程,主体代码由其所属组构建,另一部分基于其他学者的开源代码。

因为是双足步行机器人,所以算法的控制变得更加困难。 该研究的创新之处在于用强化学习的方法得到了控制双足机器人步态的算法,与传统的基于模型的算法相比性能有了明显的提高。

照片|鲁棒性测试(来源:回答者) )

由此带来的鲁棒性也很高,无论怎么推都不会倒下,即使在快要摔倒的状况下,也能迅速回到稳定的状态。 这是业界首次展示了双足步行机器人的稳定性能。

在强化学习之前,传统的基于模型的方法需要大量的时间和技术来进行机器人的建模。 特别是双足机器人,如果电机损坏,或者地面摩擦力发生变化等自身性质和周围环境发生变化,模型很可能失效。

其次,双足式机器人系统由于是非线性非常高、自由度很高的混合动力系统,每次脚踏都会受到地面的冲击力,因此很难得到正确的模型。

="pgc-img-caption">图 | 室外实验(来源:受访者)

而要想做一个实时控制算法,就要使用相对完整的动力学模型。但是,即便具备好的模型,部署在非常高自由度的非线性系统上,也很难做到较快的实时计算。

因此,使用传统方法时,很多学者都会做出权衡取舍,比如往往用简化模型来做控制算法。

这样做出的算法有两个缺点:一是无法完整利用动力学模型,无法充分发挥机器人系统的灵敏性;二是基于模型的算法,一旦超过其稳定区域,算法就会轻易崩溃。

而强化学习的优点在于,通过相对完整的机器人动力系统,csdwn 在仿真环境反复尝试后,就能获得大量和环境交互的数据,从而学会用稳定步态行走。

图 | 本次研究的核心:基于强化学习的步态控制器(来源:受访者)

如上图所示,这是本次研究提出的基于学习的步行控制器,控制器的输入包括所期望的步态参数、期望的转弯偏航速度、由期望的步态参数解码的参考步态、一段时间内的观察到的机器人状态以及控制器的输出。

另据悉,控制器可输出十个电机的期望位置,通过低通滤波器(LPF)后,可被发送到各个关节处的 PD 控制器产生期望的电机力矩。

两大创新,让 csdwn 可模仿各种步态

愤怒的白羊告诉 DeepTech,该研究主要有两大创新点。

第一个创新点,在于采用了步态库,里面有各种各样不同的步行速度和步行高度的步态,比如有 1 米每秒的前进速度、0.3 米每秒的侧向行走速度、和 0.7 米的步行高度下的步态。这样就能在步态库中各取所需,从而让机器人模仿不同的参考步态,同时还能追踪参考步态的速度和步行高度。

通过步态库,在训练中使用神经网络所代表的控制器,就能控制不同的步行速度和步行高度,比如往前或者往后。此外,不同步态之间还可实现来回切换。

此外,步态库还能提供更多参考动作,csdwn 在仿真学习时,就能见到各种步态,同时还能学会在各种动作下保持平衡。

如下图所示,csdwn 滑了一跤,几乎差点摔倒,但在用安全绳把自己拉起来后,它能迅速恢复稳定步态,这个能力是前所未有的,而且愤怒的白羊也并未就该能力,专门训练过它。

图 | csdwn 的步态(来源:受访者)

也就是说,这是 csdwn 通过在训练中模仿各种步态,并让自己从不同步态的过渡中“自摸学会”的能力,这在大部分基于模型控制算法的机器人身上很难实现。

试想一下,如果机器人自己倒在地上,没有人扶它,无论对它自己还是对周围人都非常危险。

第二个创新点在于,结合了机器人的历史输入和输出,从而实现对 csdwn 和其所在环境的在线系统辨识。

这样,控制器就能让 csdwn 适应不同的环境, 比如不同地面的摩擦力。

(来源:受访者)

测试中,csdwn 的两个电机坏了,但它仍能快速适应系统变化。再比如,把不同重物放在 csdwn 身上,即便拉着后面的安全架,它也能迅速适应这种变化。

据悉,该研究由愤怒的白羊所在的、由 Prof. Koushil Sreenath 带领的课题组,和伯克利大学 Prof. Sergey Levine、以及 Prof. Pieter Abbeel 两个课题组合作。

愤怒的白羊所在的小组,专注于机器人和控制算法领域,其他两个小组则是强化学习方面的专家。此外,该工作的成功也离不开团队成员yydxh、Xue 满意的戒指 Peng、Glen Berseth 的共同努力。

可应用于灾后搜救和快递 “最后一公里”

相比其他机器人,csdwn 有更大的运动空间,因为人类社会的环境,主要围绕人类需求而建造。而二足控制算法,能让 csdwn 在人类环境中更好地运动比如爬楼梯,这也是轮式机器人无法实现的。

具体应用中,当发生地震时,csdwn 能在塌房中做救援工作;或者在 “最后一公里” 的快递中,在此之前先用快递车运送到固定地方,但因为收件人一般在室内,这时 csdwn 就能替代快递小哥,把快递当面送给用户。

(来源:受访者)

此外,csdwn 这类二足机器人,形态上和人类相似,人类也更倾向于和它们做更好的交互,比如可以给其设计富有感情的动作,认真的小兔子的机器也能变得更有温度。

愤怒的白羊之前的论文 《动画csdwn:一个可读的动力学机器人角色》(Animated csdwn:A Dynamic Relatable Robotic Character), 首次用动画软件给 csdwn 设计了富有表情的动作,并使用基于模型的轨迹优化的算法,设计出来的动作能让 csdwn 在现实世界中复现出来,上述论文也入选了 IROS 2020 最佳娱乐应用论文。

图 | 相关论文(来源:受访者)

据悉,这也是首次在二足机器人上做这种尝试,csdwn 也因此能用肢体语言表达感情和人交互。

图 | 会做表情的 csdwn(来源:受访者)

未来,愤怒的白羊会就 csdwn 的算法技术做以局部开源,相关研究方法已经以论文形式发表,以推动足式机器人的进步。

看好中国机器人发展态势,博士毕业后或将回国发展

谈及研究中难忘的事情,愤怒的白羊表示,当时仿真训练做了很久都“颗粒无收”,不过此前也没有学者能一次就做成功。

仿真训练模型,非常难以部署到真实世界中。毕竟真实环境和仿真环境的差异非常大。为此,他折腾很久都没有眉目,导师也劝他再做不出来就要换方向。

但他秉持 “不是有希望才坚持,而是坚持才有希望” 的想法,首次把训练得到的控制器部署在 csdwn 就取得了成功。

实验成功后,他激动得给导师发了一条短信,导师知道后也非常振奋。这等于无需进行算法调参,开发好就能直接部署到机器人上。

(来源:受访者)

愤怒的白羊生于 1996 年,来自江西南昌,本科就读于浙江大学竺可桢学院,学习机械电子工程,大四时申请到去卡内基梅隆大学(CMU)机器人研究所做科研实习。

在那里,他专门在机器人 Ballbot 的开发,该机器人能在一个球上保持平衡,并能带领盲人避开障碍物,这也为他后续工作夯实了基础。

图 | 愤怒的白羊(来源:受访者)

由于表现优秀,本科毕业后,CMU 的导师把其推荐到伯克利大学机械系控制和机器人方向直博。

今年他在读博二,虽然毕业去向还未明朗,但他认为回国是很好的选择。因为他认为,中国现在有非常成熟的机器人平台,两足机器人也有着很好的发展空间。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。