凯发·K8(国际)-马竞赞助商·引领业界



banner

发布时间：2022-07-04 17:29:47



机器人8小时速成物流分拣员！Figure-02大规模上岗只用30天

 2025-02-28 14:53:10

关键词：

 分类：观看

 访问量：

概要描述

　　在和OpenAI断交之后，就在上周五★，Figure公布了首个成果Helix。

　　从各家demo来看★★，人形机器人的技术已基本成熟★★★，因此接下来的争夺主要围绕量产展开，而且要往实际生产场景走了。

　　另一方面★，随着国内外各家机器人纷纷★“进厂打工”，大家逐渐达成了一个共识★★：

　　具体来说★，他们让系统1以每秒200次的频率输出一系列动作★★★，这些动作被称为动作“块”（action “chunks★★”）。

　　系统2：基于在互联网规模数据上预训练的7B开源VLM，用于场景理解和语言理解★★★。

　　这种方法不需要改变机器人的训练过程，只是在test-time对动作执行进行加速。通过这种方法★★，Figure机器人能够在实际测试中实现高达20%的速度提升★。

　　包裹的尺寸★★★、形状、重量等各异，机器人不仅要能拿起来，而且需要确定最佳抓取和转移时间★★★，甚至放错了之后还能立马纠正★★★。

　　听起来是不是很简单，但如果要让机器人取代人类来完成这项工作，面临的挑战在于★：

　　例如由于机器人硬件差异导致的观察和动作空间的分布偏移，传统的手动校准方法不适用于大规模机器人群体★。

　　新一代系统1通过采用立体视觉骨干网络和多尺度特征提取网络来增强其空间理解能力。

　　此外★，为了解决在多个机器人上部署统一策略时遇到的挑战，以及如何通过在线自我校准来实现跨机器人策略迁移。

　　前几天，Figure推出了端到端通用控制模型——Helix★★★，能让机器人像人一样感知、理解和行动★★。

　　而这一次，Figure在物流场景重点对系统1（底层控制）进行了一系列改进：

　　视频中，一批Figure 02走上生产一线，秩序井然地分拣快递★，还能正确调整条形码位置以供机器扫描……

　　当时宝马工厂花了12个月才给机器人安排好合适的工作，而这一次★，机器人正式上岗物流仅用了30天时间★。

　　3、学习视觉本体感知（Learned visual proprioceptio）：每个Figure机器人现在都可以自我校准，简化跨机器人技能迁移★★★；

　　简单说，系统不再独立处理来自每个摄像头的图像特征，而是首先在多尺度立体网络中合并两个摄像头的特征★，然后再进行标记化（Tokenize）处理。

　　4★★、运动模式（Sport mode）：使用简单的test-time加速技术★，同时保持高成功率和更快的执行速度★★★。

　　最重要的是，Figure针对该特定场景★，进一步探讨了数据质量和数量之间的权衡关系，并初步发现：

　　这样做的好处是，保持了输入到交叉注意力transformer的视觉tokens总数不变，避免了计算开销。

　　顺便一提★★，训练过程中，Figure排除了那些较慢的、遗漏的或失败的案例★★★，不过特意保留了包含纠正行为的案例（非遥控操作员导致，自然产生）。

　　1★★★、隐式立体视觉（Implicit stereo vision）★★★：增强了3D空间感知，使机器人动作更精准；

　　官方提到的第1个客户，应该是指去年8月发布的Figure 02进宝马工厂从事汽车装配的事儿。

　　根据当时的介绍，Helix主要由两个系统组成，两个系统经过端到端训练，并且可以进行通信。

　　系统1：80M参数的交叉注意力Transformer★，用于处理底层控制。

　　最后★★，为了达到并超过人类的操作速度★，Figure采用了一种被称为“运动模式★★”的test-time加速技术。

　　Figure训练了一个视觉自体感觉模型（visual proprioception model），这个模型可以让每个机器人通过自身的视觉输入来自我校准，估算出机械臂末端（即抓取物体的部分）的精确位置和姿态★★★。

　　同时，多尺度特征提取网络能够同时捕捉到细节和更广泛的上下文信息，这有助于提高操作的准确性和可靠性★★★。

　　并且这种自我校准是在线进行的，也就是说机器人可以在工作的同时进行校准，这样就能最大程度地减少因校准而需要停止工作的时间。

　　最重要的是，按照官方说法，此次场景微调只用了30天★。而作为对比，第一个客户案例用了12个月之久。

　　在物流场景下，关键环节包括包装处理和分类，主要是需要将包裹在传送带上转移并确保标签正确扫描★★★。

　　作为一个端到端通用控制模型★★，只需自然语言提示，机器人就能拿起任何东西，哪怕是从没见过的东西（比如这个活泼的小仙人掌）。

　　然后采用了一种插值方法来加速这些动作块的执行。插值是一种数学方法★，可以在原有数据点之间生成新的数据点★。在这里，他们将原本的动作块（比如代表T毫秒的动作）通过插值缩短为0★★.8T毫秒的动作块，但是仍然以每秒200次的频率执行这些缩短后的动作块。

　　除了视频，针对本次实验的高速、小包装物流场景，Figure还公开了Helix进展的最新报告。

概要描述

　　在和OpenAI断交之后，就在上周五★，Figure公布了首个成果Helix。

　　从各家demo来看★★，人形机器人的技术已基本成熟★★★，因此接下来的争夺主要围绕量产展开，而且要往实际生产场景走了。

　　另一方面★，随着国内外各家机器人纷纷★“进厂打工”，大家逐渐达成了一个共识★★：

　　具体来说★，他们让系统1以每秒200次的频率输出一系列动作★★★，这些动作被称为动作“块”（action “chunks★★”）。

　　系统2：基于在互联网规模数据上预训练的7B开源VLM，用于场景理解和语言理解★★★。

　　包裹的尺寸★★★、形状、重量等各异，机器人不仅要能拿起来，而且需要确定最佳抓取和转移时间★★★，甚至放错了之后还能立马纠正★★★。

　　听起来是不是很简单，但如果要让机器人取代人类来完成这项工作，面临的挑战在于★：

　　例如由于机器人硬件差异导致的观察和动作空间的分布偏移，传统的手动校准方法不适用于大规模机器人群体★。

　　新一代系统1通过采用立体视觉骨干网络和多尺度特征提取网络来增强其空间理解能力。

　　此外★，为了解决在多个机器人上部署统一策略时遇到的挑战，以及如何通过在线自我校准来实现跨机器人策略迁移。

　　前几天，Figure推出了端到端通用控制模型——Helix★★★，能让机器人像人一样感知、理解和行动★★。

　　而这一次，Figure在物流场景重点对系统1（底层控制）进行了一系列改进：

　　视频中，一批Figure 02走上生产一线，秩序井然地分拣快递★，还能正确调整条形码位置以供机器扫描……

　　当时宝马工厂花了12个月才给机器人安排好合适的工作，而这一次★，机器人正式上岗物流仅用了30天时间★。

　　3、学习视觉本体感知（Learned visual proprioceptio）：每个Figure机器人现在都可以自我校准，简化跨机器人技能迁移★★★；

　　简单说，系统不再独立处理来自每个摄像头的图像特征，而是首先在多尺度立体网络中合并两个摄像头的特征★，然后再进行标记化（Tokenize）处理。

　　4★★、运动模式（Sport mode）：使用简单的test-time加速技术★，同时保持高成功率和更快的执行速度★★★。

　　最重要的是，Figure针对该特定场景★，进一步探讨了数据质量和数量之间的权衡关系，并初步发现：

　　这样做的好处是，保持了输入到交叉注意力transformer的视觉tokens总数不变，避免了计算开销。

　　1★★★、隐式立体视觉（Implicit stereo vision）★★★：增强了3D空间感知，使机器人动作更精准；

　　官方提到的第1个客户，应该是指去年8月发布的Figure 02进宝马工厂从事汽车装配的事儿。

　　根据当时的介绍，Helix主要由两个系统组成，两个系统经过端到端训练，并且可以进行通信。

　　系统1：80M参数的交叉注意力Transformer★，用于处理底层控制。

　　最后★★，为了达到并超过人类的操作速度★，Figure采用了一种被称为“运动模式★★”的test-time加速技术。

　　同时，多尺度特征提取网络能够同时捕捉到细节和更广泛的上下文信息，这有助于提高操作的准确性和可靠性★★★。

　　并且这种自我校准是在线进行的，也就是说机器人可以在工作的同时进行校准，这样就能最大程度地减少因校准而需要停止工作的时间。

　　最重要的是，按照官方说法，此次场景微调只用了30天★。而作为对比，第一个客户案例用了12个月之久。

　　在物流场景下，关键环节包括包装处理和分类，主要是需要将包裹在传送带上转移并确保标签正确扫描★★★。

　　作为一个端到端通用控制模型★★，只需自然语言提示，机器人就能拿起任何东西，哪怕是从没见过的东西（比如这个活泼的小仙人掌）。

　　除了视频，针对本次实验的高速、小包装物流场景，Figure还公开了Helix进展的最新报告。

 分类：观看

 发布时间： 2025-02-28 14:53:10

 访问量：

详情描述

　　在和OpenAI断交之后，就在上周五★，Figure公布了首个成果Helix。

　　从各家demo来看★★，人形机器人的技术已基本成熟★★★，因此接下来的争夺主要围绕量产展开，而且要往实际生产场景走了。

　　另一方面★，随着国内外各家机器人纷纷★“进厂打工”，大家逐渐达成了一个共识★★：

　　具体来说★，他们让系统1以每秒200次的频率输出一系列动作★★★，这些动作被称为动作“块”（action “chunks★★”）。

　　系统2：基于在互联网规模数据上预训练的7B开源VLM，用于场景理解和语言理解★★★。

　　包裹的尺寸★★★、形状、重量等各异，机器人不仅要能拿起来，而且需要确定最佳抓取和转移时间★★★，甚至放错了之后还能立马纠正★★★。

　　听起来是不是很简单，但如果要让机器人取代人类来完成这项工作，面临的挑战在于★：

　　例如由于机器人硬件差异导致的观察和动作空间的分布偏移，传统的手动校准方法不适用于大规模机器人群体★。

　　新一代系统1通过采用立体视觉骨干网络和多尺度特征提取网络来增强其空间理解能力。

　　此外★，为了解决在多个机器人上部署统一策略时遇到的挑战，以及如何通过在线自我校准来实现跨机器人策略迁移。

　　前几天，Figure推出了端到端通用控制模型——Helix★★★，能让机器人像人一样感知、理解和行动★★。

　　而这一次，Figure在物流场景重点对系统1（底层控制）进行了一系列改进：

　　视频中，一批Figure 02走上生产一线，秩序井然地分拣快递★，还能正确调整条形码位置以供机器扫描……

　　当时宝马工厂花了12个月才给机器人安排好合适的工作，而这一次★，机器人正式上岗物流仅用了30天时间★。

　　3、学习视觉本体感知（Learned visual proprioceptio）：每个Figure机器人现在都可以自我校准，简化跨机器人技能迁移★★★；

　　简单说，系统不再独立处理来自每个摄像头的图像特征，而是首先在多尺度立体网络中合并两个摄像头的特征★，然后再进行标记化（Tokenize）处理。

　　4★★、运动模式（Sport mode）：使用简单的test-time加速技术★，同时保持高成功率和更快的执行速度★★★。

　　最重要的是，Figure针对该特定场景★，进一步探讨了数据质量和数量之间的权衡关系，并初步发现：

　　这样做的好处是，保持了输入到交叉注意力transformer的视觉tokens总数不变，避免了计算开销。

　　1★★★、隐式立体视觉（Implicit stereo vision）★★★：增强了3D空间感知，使机器人动作更精准；

　　官方提到的第1个客户，应该是指去年8月发布的Figure 02进宝马工厂从事汽车装配的事儿。

　　根据当时的介绍，Helix主要由两个系统组成，两个系统经过端到端训练，并且可以进行通信。

　　系统1：80M参数的交叉注意力Transformer★，用于处理底层控制。

　　最后★★，为了达到并超过人类的操作速度★，Figure采用了一种被称为“运动模式★★”的test-time加速技术。

　　同时，多尺度特征提取网络能够同时捕捉到细节和更广泛的上下文信息，这有助于提高操作的准确性和可靠性★★★。

　　并且这种自我校准是在线进行的，也就是说机器人可以在工作的同时进行校准，这样就能最大程度地减少因校准而需要停止工作的时间。

　　最重要的是，按照官方说法，此次场景微调只用了30天★。而作为对比，第一个客户案例用了12个月之久。

　　在物流场景下，关键环节包括包装处理和分类，主要是需要将包裹在传送带上转移并确保标签正确扫描★★★。

　　作为一个端到端通用控制模型★★，只需自然语言提示，机器人就能拿起任何东西，哪怕是从没见过的东西（比如这个活泼的小仙人掌）。

　　除了视频，针对本次实验的高速、小包装物流场景，Figure还公开了Helix进展的最新报告。

上一篇 : 典型案例｜北京电信：推进云网算力产业高质量发展下一篇 : 债务重组成功案例分析：上海央企员工撬动150万债务实现400万飞跃