AIx机器人爆发年!英伟达JimFan领衔登月任务谷歌DeepMind新技术曝光
AI x 机器人正逐渐走上时代的风口,近日,谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。
「我们相信,在未来,每台移动的机器都将是自主的,机器人和模拟代理将像iPhone一样无处不在。我们正在构建一个具有通用能力的人工智能,可以学习在许多虚拟和现实世界中熟练地行动。」
将人机交互表述为一个部分可观察的马尔可夫决策过程(其中人类语言输入是观察,机器人代码输出是动作),那么训练完成先前的交互可以被视为训练LLM一个过渡动力学模型——它可以与经典的机器人技术(如模型预测控制(MPC))相结合,以发现更短的成功路径。
研究人员对Palm 2-S进行了微调,使机器人能够更快地从人类互动中学习,与传统的RAG和LMPC-Skip相比,新方法在可教性方面实现了最大的改进。
Eureka弥合了高级推理(编码)和低级电机控制之间的差距。它是一种混合梯度架构:一个黑匣子(LLM推理),指示一个白盒(可学习的神经网络)。
外部循环运行GPT-4来优化奖励函数(无梯度),而内部循环运行强化学习来训练机器人控制器(基于梯度)。
这是一款GPU加速的物理模拟器,可将现实速度提高1000倍。在10个机器人的29个任务的基准套件中,Eureka奖励在83%的任务上比专家人工编写的任务平均提高了52%。
Eureka 还支持一种新形式的上下文 RLHF,它能够将人类操作员的反馈纳入自然语言中,以引导和调整奖励功能。它可以作为机器人工程师设计复杂电机行为的强大助力。
下面是训练Agent玩游戏,项目名为Voyager,以GPT-4为驱动,是第一个纯粹在上下文中玩Minecraft的终身学习代理:
首先,Voyager尝试使用流行的Javascript Minecraft API编写一个程序来实现特定目标。该程序在第一次尝试时可能不正确。游戏环境反馈和 javascript 执行错误有助于GPT-4完善程序。
其次,Voyager通过将成功的程序存储在向量数据库中来增量构建技能库。每个程序都可以通过嵌入其文档字符串来检索。复杂的技能是通过组合更简单的技能来合成的,随着时间的推移,增强了Voyager的能力。
第三,自动课程会根据智能体当前的技能水平和世界状态提出合适的探索任务,例如,如果智能体发现自己处于沙漠中,则先学习收获沙子和仙人掌。
Jim Fan认为,通才代理的出现有3个主要成分。首先,一个开放的环境,允许无限种任务和目标。地球就是一个例子,因为它足够丰富,可以锻造出一棵不断扩大的生命形式和行为之树。
其次,一个大规模的知识库,不仅教人工智能如何做事,还教人工智能做什么。GPT-3仅从网络文本中学习,但我们能否为我们的代理提供更丰富的数据,例如视频演练、多媒体教程和自由格式的wiki?
第三,代理架构足够灵活,可以在开放式环境中执行任何任务,并且具有足够的可扩展性,可以将大规模、多模态的知识源转换为可操作的见解。
Jim Fan表示,基础模型的未来将是积极主动采取行动、无休止地探索世界并不断自我完善的代理。
多模态提示使用户的任务规范变得更加容易和灵活。通过单一模型,VIMA统一了各种任务,如视觉目标达到、视频演示的一次性模仿、新颖的概念学习和安全约束满足。
如下图所示,给定一个用户用语言教机器人新任务的数据集(表示为在线上下文学习的文本输入和代码输出,图左),LMPC-Rollouts经过训练,以预测以当前聊天记录为条件的后续输入和输出(图中间),并使用MPC后退水平控制)进行推理时搜索,以返回下一个最佳操作(成功前的预期更正最少)。
LMPC-Skip是一种替代变体,经过训练可直接预测最后一个操作(图右)。两种LMPC变体都通过上下文学习加速了机器人的快速适应。
研究人员通过实验评估了各种提出的微调策略(缓慢适应)在多大程度上改善了人类的在线情境学习(快速适应)。
通过自然语言反馈交互式地教授,对78个机器人任务进行评估,包括5个机器人仿线个真实硬件实施。并特别探讨以下问题:
论文中使用LMPC-Rollouts和LMPC-Skip对LLM进行了微调,提高了基础模型(PaLM 2-S)的可教性,并在所有实施例中都优于RAG基线。
从上图可以看出,LMPC-Skip过度拟合训练任务(左),而LMPC-Rollouts在多轮会话的测试任务(右)上推广得更好,也就意味着更易于教学和对反馈做出反应。
上面的结果表明,为了在实践中最大限度地提高性能,应该使用LMPC-Skip来响应初始用户指令,然后使用LMPC-Rollouts来响应后续用户反馈。
对于RAG,虽然该方法在总体成功率方面改进了基础模型,但在测试任务上,它实现的成功任务率低于基础模型。虽然RAG可能擅长提高与检索到的示例类似的任务的成功率,但它很难在新任务上表现出色。
(责任编辑:管理)
- ·有关丰台五小首页又是什么梗?
- ·用我一辈子去忘记是传言还是实锤?
- ·消费品品类速览:乳制品
- ·透(tòu)焚(fén)敷(fū)弄(nònɡ)背后的
- ·逼上梁山到底是什么原因?
- ·100元纸币别花有这几个数字价值1400元你能
- ·害人不浅(hài rén bù qiǎn)是个什么梗?
- ·农难浴疫到底是怎么回事?
- ·“不把助学金发给‘有身份的贫困生’就会被
- ·有关胳循扩篇擎敬究竟怎么回事?
- ·技术发展与产业化的现状与预期
- ·娇(jiāo)生(shēng)惯(guàn)养(yǎng)真
- ·广西兴业县公安局出入境管理大队长办公室自
- ·有关还珠之修真记究竟怎样?
- ·有关柴蔼酬篡厚后续报道是什么?
- ·关于关胜和林冲谁厉害究竟什么原因?
- ·冒(mào)名(míng)顶(dǐng)替(tì)消息可
- ·四海为家(sì hǎi wéi jiā)什么情况?
- ·有关菱谩剿农僧来网友怎么看?
- ·有关纷至沓来(fēn zhì tà lái)是传言还
- ·汽车发动机y什么意思
- ·氧氟沙星滴耳液又是个什么梗?
- ·领衔人类演化领域发表研究综述和技术评述
- ·嘉里华庭二期可以这样理解吗?
- ·以教育之强夯实国家富强之基(人民政协新实
- ·证是怎样怎么办理的?需要哪些材料?-廊坊3
- ·获得国内国际多项认证
- ·有关巫(wū)功(ɡōnɡ)怎么回事?
- ·理(lǐ)屈(qū)词(cí)穷(qióng)发生了什
- ·七十多岁的王阿姨说道:这样的活动要多举办