一文熟悉人形机器人之眼:机器视觉
作者 | 楚欣
出品 | 焉知
圈子 | 加微yanzhi-2020,进人形机器人社群
人类的视觉机制是一个能够进行三维信息采样的系统,它能够将三维空间中的物体投影到我们的视网膜上形成二维图像,而我们则通过解析这些二维图像来感知和理解物体的三维特性,如形态、大小、距离、纹理以及运动状态(包括方向和速度)。基于这一原理,机器视觉技术应运而生。机器视觉系统是指用计算机来实现人的视觉功能,即用计算机来实现对客观的三维世界的识别,是一个“光、机、电、算、 软”等技术高度集成的系统。未来人形机器人也将大量依赖视觉感知来获取信息。
本文将系统梳理机器视觉相关的内容,分为五部分:
- 核心组件;
- 工作流程;
- 四大功能;
- 机器视觉典型的技术方案;
- 人形机器人视觉典型的技术方案。
3D视觉传感器构成(以Astra系列为例),来源:奥比中光
1
核心组件
机器视觉系统由五大核心组件构成:光学成像、图像传感器、图像处理、输入输出(IO)以及显示模块。在光学成像模块中,通过精心设计的光源与光路布局,物体空间的信息经由镜头精确投射至成像面,从而捕获目标物的物理特性。图像传感器模块则承担着将光信号转化为电信号的关键任务。图像处理模块依托CPU为核心或专用信息处理芯片,结合完善的图像处理方案与算法库,高效提取并解析图像中的关键数据。IO模块则负责将机器视觉系统的处理结果与数据向外输出。而显示模块则为用户提供了直观监控系统运行状态与图像可视化的便捷途径。国产替代进口的进程预计将遵循由易到难的顺序逐步推进,首先实现光源、相机、镜头的国产化替代,随后逐步攻克开发软件领域的国产替代难题。
1、工业相机:捕捉和分析对象的核心部件
工业相机作为将光信号转化为电信号的关键设备,广泛应用于自动化流水线中以实现精确测量与判断。工业相机一般安装在机器流水线上代替人眼来做测量和判断,通过数字图像摄取目标转换成图像信号,传送给专用的图像处理系统,图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。它根据传感器结构分为线阵与面阵,按输出信号分为模拟相机和数字相机,按响应频率则分为可见光(普通)相机、、红外相机和紫外相机等类型。其核心部件图像传感器主要分为CCD和CMOS两大类,后者因集成放大器与模数转换,正逐渐取代CCD成为主流。当前,国产化进程加快,国内品牌如大恒图像、海康机器人等在中低端市场已初具规模,而高端市场仍由国外品牌主导,但国产替代趋势明显。
2、镜头:机器视觉的“眼球”
镜头是机器视觉图像采集的核心部件,对成像质量至关重要。它将目标成像在图像传感器的光敏面上,分辨率、对比度、景深以及像差等指标对成像质量具有关键性影响。机器视觉系统处理的所有图像信息均通过镜头得到,镜头的质量直接影响到视觉系统的整体性能。镜头种类繁多,按功能和视角可分为定焦、变焦、变光圈及普通、广角、远摄等类型,还有远心、显微、微距、紫外、红外等特殊用途镜头。随着光电子技术与移动互联网、物联网、AI的快速发展,光学镜头的应用已从传统领域拓展至安防监控、机器人、数码产品、智能驾驶、智能家居、VR/AR设备等多领域,为行业持续发展提供新动力。
3、光源:提供视觉照明方案
光源在机器视觉图像采集中扮演关键角色,它影响成像质量的重要因素,它的作用是突出物体的特点,抑制不相关特征,提高被探测区域和未探测区域的反差,并保证光源有足够的亮度和稳定性,从而保证图像的成像质量。选择适合的光源至关重要,需考虑反射与吸收效果,同时机器视觉光源对照度、均匀性和稳定性有更高要求。按类别和形状,光源有多种分类,按照类别区分,光源可分为 LED 光源、卤素灯以及高频荧光灯;按照形状区分,光源也可分为环形、条形、平面、线等形状。全球视觉照明市场原由海外企业主导,但中国厂商如奥普特、沃德普、锐视光电、纬朗光电等已崛起,与国际厂商同台竞技。市场可分为三梯队,第一梯队以CCS和奥普特为代表,市场份额超5%;第二梯队以美国 AI、中国锐视光电、中国康视达等企业为代表,市场份额在1%-5%之间;第三梯队则以日本 Moritex、中国沃德普和中国纬朗光电等企业为代表,包括市场份额不足1%。
4、图像处理软件:以算法为核心竞争力
机器视觉系统通过算法分析传感器生成的数字图像,经过图像提取、特征突出、特征分析、规范比较等步骤做出决策。机器视觉软件如同系统“大脑”,负责识别、定位、测量等功能,分为底层算法和二次开发软件包两类,前者是包含大量处理算法的工具库,用以开发特定应用,主要使用者为集成商与设备商。在中国市场,机器视觉软件以自主研发或开源平台二次开发为主,MVTec的Halco、海康机器人的Vision Master和康耐视的Vision Pro占据市场前列,对外采购品牌软件的情况相对较少。
2
工作流程
图像采集:通过摄像头或其他成像设备(如CMOS和CCD相机)捕捉到目标物体的二维或三维图像信息。这些图像可以是可见光、红外、紫外、X射线等多种形式,根据应用场合的不同选择合适的成像方式。
图像处理:采集到的图像信号被传送给专用的图像处理系统,进行数字化转换。这个过程会涉及到对像素分布、亮度、颜色等图像信息被转成数字信号。
图像分析:图像处理系统运用各种算法对数字化后的信号进行运算,以提取目标的关键特征,如物体的形状、纹理、颜色、尺寸等,为后续的物体识别和分类提供数据支持。
图像输出:根据分析的结果,输出相应的信息,如判断物体是否合格、尺寸是否符合标准等,并将这些结果传递给后续的控制或执行系统,实现精准的物料抓取、装配、焊接等自动化作业,以及无人机自主导航、自动驾驶路径规划等功能。
3
四大功能
机器视觉主要集中在四大功能:识别、测量、定位和检测。
识别:机器视觉能够识别图像或视频中的特定物体、符号、文字或人脸等。这通常涉及特征提取、模式匹配和分类算法。识别功能在自动化生产线上的产品识别、安防监控中的人脸识别以及智能交通中的车牌识别等方面都有广泛应用。
测量:机器视觉能够精确测量物体的尺寸、形状、位置以及表面特征等。通过图像处理技术,可以计算出物体的实际尺寸、角度、距离等参数。这在质量控制、精密制造和机器人导航等领域尤为重要。
定位:机器视觉能够确定物体在图像或空间中的准确位置。这通常涉及图像匹配、特征点检测和坐标变换等技术。定位功能在自动化装配、机器人抓取以及无人驾驶汽车的路径规划等方面发挥着关键作用。
检测:机器视觉能够检测图像中的异常、缺陷或特定目标。通过图像分析算法,可以识别出产品表面的瑕疵、生产线上的异物或安全隐患等,如裂缝、凹陷、划痕、异物、缺失部件等。检测功能在质量控制、安全检查以及环境监测等领域具有广泛应用。
机器视觉系统构造,来源:《2022 年中国机器视觉产业发展白皮书》
4
机器视觉典型的技术方案
不同应用领域或场景对视觉的测量范围、测量精度、尺寸和功耗等性能要求均不同,根据成像维度的差异,主要被划分为2D视觉技术和3D视觉技术两大类。
2D 视觉技术:2D视觉技术,历经数十年的发展,其分辨率实现了从数十万到数亿的巨大飞跃,使得图像的色彩还原更加逼真,图像质量也显著提升。它通过摄像头捕捉平面图像,并依赖图像分析或比对来识别物体。但仅限于获取表面纹理信息,无法获取物体与相机之间的距离信息,无法进行三维测量,且易受光照和颜色/灰度变化影响。
3D 视觉技术:3D视觉技术提供丰富维度信息,包括旋转、俯仰、横摆等,能真实还原立体世界并实现三维尺寸精确测量,是2D技术的有效补充。它增强了工业机器人的环境感知能力,拓宽了应用场景,被视为视觉技术发展史上的重大突破。3D视觉技术作为机器人感知的最先进、最重要的方法,根据成像原理的不同,可进一步划分为光学和非光学两大类。其中,光学方法因其高效、准确的特点而得到广泛应用。光学3D视觉技术包括但不限于飞行时间(ToF)法、结构光法、激光扫描法等多种方法。这些方法各有优势,能够满足不同应用场景对精度、速度、成本等方面的需求。
下表是对典型的四类视觉技术的简介:
5
人形机器人视觉典型的技术方案
当前,人形机器人市场在全球范围内正经历着快速增长,众多制造商已经展示了他们的产品原型,并且一些行业先锋已经开始筹备大规模生产。在人形机器人的研发与设计过程中,3D视觉传感器已经确立了其作为主流视觉解决方案的地位,各类深度相机被广泛采纳。有些公司选择将激光雷达与3D视觉传感器融合使用,例如Agility Robotics的Digit、宇树的H1和智元的远征A1,这种组合显著提升了机器人对环境感知和避障的能力。与此同时,也有一部分制造商使用纯摄像头方案,如特斯拉的Optimus和1X Technologies的早期产品EVE。
下面是系统介绍几种典型厂商人形机器人视觉方案:
1、特斯拉 Optimus:2D 视觉传感器+FSD
特斯拉延续汽车以视觉为主技术路线,硬件成本低,对软件算法要求高。Optimus 的 3D 传感模块以多目视觉为主,头部使用三颗 Autopilot 摄像头作为感知系统:左肩和右肩各一颗摄像头,提供高清的2D图像信息,用于捕捉细节和进行深度感知。前置中央还配置了一颗广角鱼眼摄像头,其视角设计巧妙地模拟了人类的视觉范围,实现了超过180度的前方场景覆盖。
对于Optimus机器人而言,技术迁移过程中唯一的挑战在于需要重新收集训练数据。特斯拉在这方面拥有显著优势,他们自主研发了基于神经网络的训练体系,并组建了一支由全球1000多名专业人才构成的数据标注团队。这支团队每天对视频数据中的物体进行精细标注,结合人工标注的细致入微和自动标注的高效,仅需一次标注,就能在“矢量空间”中自动完成所有摄像头多帧画面的标注工作。这为特斯拉积累了数以亿计的高质量、多样化的原生数据,这些数据是神经网络培训的重要基础。特斯拉还采用了多任务学习HydraNets神经网络架构,这一架构能够巧妙地将摄像头捕捉的画面拼接起来,并在视频画面的延迟和精准度之间找到完美平衡。通过对环境和动静物体的逐帧分析,系统能够深入了解物体的深度、速度等关键信息。这些信息随后被用于机器人的学习过程,帮助它绘制出3D鸟瞰视图,并形成包含4D空间和时间标签的“路网”,帮助车辆/机器人更准确地理解环境,更精准的寻找最优路径。
值得注意的是,Optimus不仅继承了特斯拉车辆的FSD(全自动驾驶)技术,还融入了Autopilot相关的神经网络技术。其智能处理的核心是自主研发的AI训练Dojo D1芯片和超级计算机Dojo。这套系统能够高效处理摄像头采集的信息,并通过强大的神经网络完成各种任务的识别和处理,所有这些工作都在其胸腔的FSD全套计算机上完成。
来源:车右智能、与非网、Tesla AI Day 2022-Bot
2、优必选:四目系统及双 RGBD 传感器
优必选 Walker X 采用基于多目视觉传感器的三维立体视觉定位,其视觉模块配备了四目视觉系统和两个RGB-D传感器:胸部采用了四目视觉设计,而头部和腰部则各配置了一个RGBD传感器,此外,腰部还装备了4个毫米波雷达以增强避障能力。
在导航与路径规划方面,Walker X采用了SLAM(即时定位与地图构建)视觉导航技术,并结合了Coarse-to-fine(由粗到精)的多层规划算法。通过第一视角的实景AR导航交互和2.5D立体避障技术,它能够在动态环境中自主规划并导航至全局最优路径。此外,Walker X还融合了基于深度学习的物体检测与识别算法、人脸识别算法以及跨风格人脸数据生成技术,能够在复杂多变的环境中准确识别出人脸、手势以及各类物体,从而实现对外部环境的丰富而准确的理解与感知。
优必选人形视觉方案,来源:优必选
3、波士顿:RGB 摄像头+TOF 深度相机
上一代液压驱动版本是RGB摄像头 + 3D ToF深度相机 +激光雷达。今年推出的最新一代电机驱动产品,没查到到是否带激光雷达,初步推测是RGB摄像头+3D ToF深度相机。
波士顿动力 Atlas 视觉外观,来源:车右智能
Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云,点云是测距的大规模集合。机器人感知算法用于将来自相机和激光雷达(LiDAR)等传感器的数据转换为对决策和规划实际动作有用的数据。Atlas 的感知软件使用一种名为多平面分割的算法从点云中提取平面。多平面分割算法的输入馈入到一个映射系统中,该系统为 Atlas 通过相机看到的各种不同对象构建模型,Atlas 再基于它构建的模型来规划路径。
深度相机拍摄的 Atlas 机器人的点云旋转视图
4、宇树科技:3D 激光雷达+深度相机
宇树的视觉解决方案当前主要融合了结构光技术、双目或多目RGB传感器,以及TOF(飞行时间)传感器等多种技术组合。在Unitree H1机器人上,激光雷达被巧妙地安装在机器人的后脑勺位置,这一设计使其能够捕获远距离且广泛的环境信息。同时,机器人的脑门上方则配备了深度相机,专注于提供近距离且高度精确的深度数据。这种3D激光雷达与深度相机的强强联合,赋予了Unitree H1卓越的环境感知能力。它不仅能够自主移动、准确识别周围环境,还能进行有效的交互,即便在复杂多变的环境中,也能展现出卓越的导航和避障性能。
宇树科技 G1 视觉方案,来源:宇树科技公众号
5、智元:RGBD 相机+激光雷达
360°激光雷达+6颗高清摄像头融合感知,实现全景无盲区。RGB 摄像头叠加 3D 视觉传感器同时捕捉彩色图像和深度图像,采集物体的颜色、形状以及距离信息,而激光雷达则提供了高精度的距离和几何形状信息。此外,远征系列机器人还采纳了自动驾驶领域的Occupancy前沿感知技术,并融入SLAM算法,显著增强了其对环境的理解和解析能力,使得机器人能够在各种环境下实现全域安全自主导航,并具备出色的局部避障能力。
远征A2,来源:智元官网
小米发布的 CyberOne 机器人采用“AI 交互相机+Mi Sensense 自研空间视觉模组”方案,其中 Mi-Sense 深度视觉模组是由小米设计,欧菲光协同开发完成。根据欧菲光公开的信息,其机器视觉深度相机模块包含iToF模组、RGB模组,并可选配IMU模块。在RGB+iToF的融合方案中,iToF技术虽然无法捕捉物体的颜色纹理细节,但RGB相机却能弥补这一不足,提供丰富的色彩和纹理信息。将RGB与iToF技术相结合,不仅能获取物体的精确深度数据,还能同时捕捉到物体的颜色纹理,从而极大地拓宽了机器人的应用场景。具体来说,RGB信息可被用于物体的检测与识别,而深度信息则助力机器人进行环境建模和避障操作。
小米 Mi Sense 视觉技术,来源:小米
热门文章
更多精华美文扫码阅读
焉知汽车
希骥电池与储能
请先 登录 后再发表评论~