证券研究报告:机械设备|深度报告 2024 年 1 月 21 日 市场有风险,投资需谨慎 请务必阅读正文之后的免责条款部分 行业投资评级 强于大市|维持 行业基本情况 收盘点位 1301.16 52 周最高 1606.0 52 周最低 1301.16 行业相对指数表现(相对值) 资料来源:聚源,中邮证券研究所 研究所 分析师:刘卓 SAC 登记编号:S1340522110001 Email:liuzhuo@cnpsec.com 研究助理:傅昌鑫 SAC 登记编号:S1340123050006 Email:fuchangxin@cnpsec.com 近期研究报告 《挖掘机专题:国内市场静待回暖,国际化持续推进》 - 2024.01.14 机器人如何进行复杂操作和自主移动 ⚫ 投资要点 2024 年 1 月,斯坦福大学团队在社交媒体上发布了与谷歌DeepMind 团队合作研发的能炒菜、能做家务的双臂机器人 Mobile ALOHA。时隔不久,特斯拉也发布了关于机器人执行折叠衣物等复杂操作的演示视频,这些事件引发了人们对于人形通用机器人时代的遐想。Mobile ALOHA 依托系统收集的数据,通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高,整套价格仅需 3.2 万美元,且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的 Mobile ALOHA,其关键在于机器人的运动控制及交互,和自主移动两方面。目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢,今年或将成为人形机器人应用的元年,下文中将讨论机器人是怎样完成复杂操作及自主移动的。 机器人如何进行复杂操作?多种 AI 训练路径实现运动控制及环境交互。ChatGPT 引起浪潮后,以谷歌 PaLM-E 为代表的多模态具身VLM 不断面世,人形机器人领域也出现了许多不同的 AI 训练方法。目前比较主流的五种 AI 训练思路:虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和 VLA。每种方式都有其优劣之处,各家公司会通过尝试及融合多种训练方式,以寻找最为适合的 AI 路径。虚拟仿真指在虚拟环境中构建智能体并进行强化学习算法训练,代表为英伟达的 VIMA;动捕或遥操作指将真人动作通过传感器等设备精准复制给机器人,机器人接收并收集训练信息从而学会技能,代表为特斯拉等人形厂商;模仿学习指机器人通过观察人类现场演示或端到端学习人类示教视频,理解行动中的底层逻辑,进而复现人类演示的技能,代表为斯坦福 MimicPlay;VLM+小模型是由 VLM 大模型负责高层规划,小模型做低层运动控制,代表为谷歌 PaLM-E 和 MetaImage Bind;VLA是从 VLM 中演化出来的,直接输出运动控制指令,构成感知-决策-动作的闭环过程,代表为谷歌 DeepMind RT-2。 机器人如何实现自主移动?SLAM 技术应用推进其发展。SLAM 是实现机器人自主导航和后续交互的关键技术之一,是以定位和建图两大技术为目标的算法。根据传感器的不同,机器人用的 SLAM 算法可以分为二维激光 SLAM、三维激光 SLAM 以及视觉 SLAM。不同的 SLAM算法,实现的具体细节会有所不同,一般通用架构会包含数据预处理、前端、后端、闭环检测、地图构建等。不同方案的 SLAM 均有其应用空间,三维激光、视觉 SLAM 更适合于人形机器人应用场景。国内多家人形机器人厂商已经在自主移动领域应用了 SLAM 技术,未来随着移动机器人、自动驾驶等领域 SLAM 技术的迁移,应用范围将更为广阔。 ⚫ 风险提示: -23%-20%-17%-14%-11%-8%-5%-2%1%4%2023-012023-042023-062023-082023-112024-01机械设备沪深300 请务必阅读正文之后的免责条款部分 2 人形机器人下游发展不及预期风险;算法及算力更新迭代不及预期风险;机器人自主移动技术竞争加剧风险;技术落地不达预期风险。 请务必阅读正文之后的免责条款部分 3 目录 1 斯坦福推出擅长家务的 Mobile ALOHA,特斯拉 Optimus 能叠衣服 ................................. 5 2 机器人如何进行复杂操作:多种 AI 训练路径实现运动控制及环境交互 ............................. 8 2.1 虚拟仿真(Sim2Real) ................................................................. 8 2.2 动作捕捉或遥操作(Tele-operati...