不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer 简称RT的新型视觉语言动作VLA模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。 谷歌介绍,RT基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT可以将网络数据喂给机器人,指导机器人的行为。
为了展示RT的能力,谷歌发布了一个演示视频,让搭载RT的机器人完成一些它此前从未 格鲁吉亚电话号码列表 经过训练的项目。 做交互设计年,我为何转岗到产品经理? 真正转岗之后,我发现很多工作还是超出了自己的想象。产品经理的工作确实比较杂。理论上,从市场研究、用户调研、数据分析... 查看详情 > 视频中,面对一堆随意放在桌上的物品,搭载了RT模型的机械臂能够听懂人类语言并做出相应的反应。
比如,命令它捡起已灭绝的动物,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到的总和的位置,机械臂直接把香蕉放在了数字的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。 不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。 即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。
|