一种基于Vision Transformer在单目视觉深度识别的优化策略
三维(3D)物体检测长期以来一直是工业界和学术界的一个基本问题,并支持各种应用,从自动驾驶车辆和无人机,到机器人操纵和增强现实应用。先前的方法已经基于来自多个传感器的准确深度信息实现了卓越的性能,例如LiDAR信号或立体匹配。
单目 3D 物体检测(Mono3D)已经被提出并取得了令人印象深刻的进展。一个实用的自动驾驶在线 Mono3D 检测器应该满足以下两个要求:
1)考虑到移动平台上计算资源的限制,Mono3D 检测器生成的 3D 边界框应该足够准确,不仅对于近处物体,而且对于远处物体那些,确保高优先级的驾驶安全应用;
2)Mono3D检测器的响应时间应尽可能短,以确保在移动设置中可以立即检测到感兴趣的物体。
当前的 Mono3D 方法,无论是基于深度图、基于伪激光雷达、还是仅基于图像的,大多数遵循传统 2D 对象检测器的流程,首先从热图中定位对象中心,然后聚合每个对象中心周围的视觉特征以预测对象的 3D 属性,例如位置、深度、3D尺寸和方向。尽管它在概念上很简单并且计算开销较低,但现有的 Mono3D 方法远不能令人满意,因为仅使用预测对象中心周围的局部特征缺陷来理解场景级几何线索,从而无法很好的准确估计对象的深度。
最近,受到自然语言处理中 Transformer 成功的启发,开发了具有图像块之间远程关注功能的Vision Transformer(ViT),用于解决 Mono3D 任务并实现最先进的 (SOTA) 性能。
为了降低传感器要求,更便宜,更节能、更易于部署的替代方案,环境检测标记过程不应该平等对待所有图像区域,而是将密集和精细的标记分配给有意义的图像区域(即远处的汽车和车道线),而将粗略的标记分配给信息较少的区域,例如背景。
如下图 1(a) 所示,大多数现有的视觉转换器遵循基于网格的标记生成方法,其中输入图像被划分为相等图像块的网格,称为标记。然而,由于以下两个原因,使用基于网格的令牌对于 Mono3D 应用程序(例如自动驾驶)来说并不是最佳选择:
1)远处的物体尺寸较小并且图像信息较少,这使得它们很难用基于粗网格的标记来检测;
2)由于有限的计算能力和严格的延迟要求,使用基于网格的精细token很难实现。
图 1(a)传统视觉转换器中使用的基于网格的令牌,图(b)表示本文提到的自适应令牌转换器(ATT)中使用的异构令牌的插图。
在本文中,我们介绍了一个名为 MonoATT 的在线 Mono3D 框架,它利用具有不同大小和形状的异构令牌的新型ViT来增强移动 Mono3D。我们有一个关键的观察结果,即并非对象的所有图像像素对于 Mono3D 都具有同等的意义。例如,车辆轮廓上的像素比车身上的像素更重要;远处物体上的像素比近处物体上的像素更敏感。MonoATT 的核心思想是在利用转换器增强 Mono3D 检测之前,自动将精细标记分配给更重要的像素,将粗标记分配给不太重要的像素。因此,本文介绍的方法通过如下三方面的工作提升Mono3D及检测性能:
1)引入了一种新颖的在线Mono3D框架,利用自适应令牌转换器来提高检测精度并保证低延迟;
2)提出了一种评分网络,它集成先验知识来估计渐进式自适应令牌生成的关键点;3)特征重建网络被设计为从自适应标记有效地重建详细的图像特征图。
为此,如图1(b)所示,我们应用相似性兼容性原则,在多个阶段将具有相似特征的图像块动态聚类和聚合成异构令牌。通过这种方式,MonoATT 在不同重要性的图像部分之间巧妙地分配计算能力,满足移动 Mono3D 应用程序提出的高精度和低响应时间要求。
目前,设计 MonoATT 面临三个主要挑战。
首先,确定特征图上的关键点非常重要,因为这些关键点可以代表 Mono3D 检测的最相关信息。这些关键点还可以作为聚类中心来对具有相似特征的标记进行分组。为了应对这一挑战,我们根据移动 Mono3D 场景中的先验知识对图像特征进行评分。具体来说,目标的特征(例如车辆、骑自行车的人和行人)比背景特征更重要。此外,更加关注远处目标的特征和目标的轮廓。然后,选择预定义数量的得分最高的关键点作为聚类中心来指导每个阶段的标记聚类。因此,具有密集关键点的图像区域最终将被分配精细标记,而具有稀疏关键点的区域将被分配粗略标记。
其次,给定每个阶段已建立的聚类中心,如何将相似的令牌分组到集群中并有效地聚合集群内的令牌特征的方法是不直观的。由于二维卷积的局部相关性,使用朴素最小特征距离进行聚类标记将去除模型对对象轮廓的敏感性。
此外,简单的特征平均方案会受到异常标记引入的噪声的极大影响。为了解决这些问题,我们设计了一个令牌集群和合并网络。它将标记分组为簇,同时考虑标记之间的特征相似性和图像距离,使得具有相似特征的远标记更有可能被指定到一个簇中。然后,它将集群中的所有令牌合并为一个组合令牌,并通过注意机制聚合它们的特征。
第三,将多阶段视觉标记恢复为像素级特征图的方法被证明对视觉转换器是有益的。然而,如何从不规则形状和各种尺寸的异构标记中恢复规则的图像特征图是具有挑战性的。为了将每个阶段的自适应标记转换为特征图,我们提出了一种高效的多阶段特征重建网络。具体来说,特征重建网络从最后阶段的聚类开始,逐渐对token进行上采样,聚合前一阶段的token特征。聚合后的 token 与特征图中的像素一一对应,并被重新整形为特征图。因此,使用增强的特征图,通过传统的 Mono3D 检测器可以获得准确的 3D 检测结果。
MonoATT的框架设计
MonoATT的指导思想是利用不规则形状和各种尺寸的自适应标记来增强基于Transformer的Mono3D的图像特征表示,从而可以实现两个目标:
1)从粗到细获得优质的图像特征,以提高Mono3D的精度对于近处和远处的物体;
2)剔除不相关信息(例如背景),减少token数量,提高Vision transformer的时效性。图 2 描述了我们框架的架构。
图 2. MonoATT 由四个主要组件组成,即聚类中心估计 (CCE)、自适应令牌变换器 (ATT)、多级特征重建 (MFR) 和单目 3D 检测。
如上图所示,CCE 涉及一个评分网络来预测最重要的图像区域,这些区域在每个异构令牌生成阶段充当聚类中心。给定通过切片特征图获得的初始精细网格标记,ATT首先通过在多个阶段对标记进行分组和合并来生成适应图像区域重要性的异构标记;然后它利用变压器网络提供的远程自注意力机制来关联异构令牌上的特征。MFR 从所有不规则标记中重建增强的像素级特征图,以便于 Mono3D后续处理。最后,采用标准的 Mono3D 检测器作为底层检测核心。
具体来说,MonoATT首先采用了DLA-34作为其主干,以尺寸(W×H×3)的单目图像作为输入,并在使用s因子下采样后输出尺寸为(Ws×Hs×C)的特征图。然后,特征图被输入到四个组件中,如下所示:
聚类中心估计(CCE)。CCE利用评分网络,根据每个阶段的分数排名和定量要求,从单目图像中挑选出最关键的、值得作为聚类中心的坐标点位置。
自适应令牌转换器(ATT)。从通过切片特征图和选定的聚类中心获得的初始精细网格标记开始,ATT 将标记分组为簇,并在每个阶段将每个簇内的所有标记合并为一个标记。之后,利用transformer网络在自适应令牌之间建立远程注意关系,以增强 Mono3D 的图像特征。ATT过程由N个阶段组成。
多阶段特征重建(MFR)。MFR 将所有 N 个阶段的不规则形状和不同大小的 token 恢复并聚合成大小为 (Ws × Hs × C0 ) 的增强特征图。
单目 3D 检测。MonoATT 采用 GUPNet,一种 SOTA 单目 3D 物体检测器作为其底层检测核心。
聚类中心CCE估计
为了生成自适应标记,关键是要了解每个图像区域相对于 Mono3D 任务的重要性。主要基于以下两个观察结果:
观察1:作为一种深度知识,远处的物体更难以检测,应该受到更多关注。
观察2:作为语义知识,目标特征(例如车辆、行人和骑自行车者)比背景特征更有价值,轮廓特征(例如车道、边界、角点)比内部特征更重要目标。
因此,我们建议设计两个评分函数来分别衡量深度和语义信息。对于深度评分函数,使用单目深度估计网络来估计深度信息很简单,但会大大增加计算开销和训练负担。此外,还需要像素级深度标签,这在标准 Mono3D 任务中是不允许的(例如,像素级深度标签在 KITTI 3D 检测数据集中不可用)。
相反,我们根据相机的针孔成像原理,采取有效的深度估计方案,并提出以下命题:
命题1:给定相机坐标系P,根据理想的针孔相机模型,虚拟水平面可以投影在相机的像平面上,图像上每个像素对应的深度由相机内参数K决定。
特别是,我们设想一个虚拟场景来快速估计场景中每个像素的深度,其中相机坐标系 P 中有一个巨大且无限的水平面。具体来说,对于位于(u, v) 的每个像素,假设深度 zˆ,可以将其反投影到 3D 场景中的点 (x3d,y3d,zˆ):
其中,fx 和 fy 是沿图像平面的 x− 和 y− 轴以像素表示的焦距,cx 和 cy 是图像中心和角点之间可能的位移,这些被称为相机内参 K。
假设相机距地面的高度(记为 H)已知(例如,KITTI 数据集中所有车辆(包括自车)的平均高度为1.65m),则深度特征图(u,v)可以计算为:
请注意,当点接近消失点时,即 v = cy,(2)不连续,并且当v ≤ cy 时,物理上不成立。为了解决这个问题,我们使用倒数来对深度进行评分,如下所示:
其中v是y轴的向量,B是常数,ReLU激活用于抑制小于零的虚拟深度值,这对于单目相机来说在物理上是不可行的。
对于语义评分函数,我们引入后续的神经网络来检测图像中可能的关键点。具体来说,除了基于 CenterNet的网络中的常规回归任务之外,我们还引入了用于语义评分的回归分支:
以上公式中,H 是输入图像特征,f 是 CNN 架构。可以将点检测任务的丢失表示为:
其中,FL是Focal Loss,用于处理关键点标签的样本不平衡;(ut,vt) 是groundtruth关键点坐标;gm 是映射函数gm:(Rm, Rm) → RWs×Hs 将m点坐标转化为热图;S = Sd + αSs 是尺寸为(Ws × Hs)的图像特征图的得分矩阵;α是一个超参数。矩阵加法方法扩大维度,并在必要时添加内容。检测网络由 LCCE 监督,可以与其他 Mono3D 分支联合训练。
对整个特征图进行评分后,CCE 计算每个标记内像素分数的平均值,以评估该标记的重要性。我们将聚类中心标记定义为平均得分最高的标记,并作为标记聚类的起始中心。由于不同阶段所需的聚类中心数量不一致,对于阶段l,我们从nl−1个原始token中排序选出编号为nl的聚类中心token集合:
其中是聚类中心 token 特征;gr 是排序和挑选函数,从输入token 中选择排名最高的nl的token 特征,与前一阶段l−1的输出一致。
自适应令牌转换器
为了增强 Mono3D 的图像特征,我们利用 ATT 以有效的方式利用远程自注意力机制。如图 3 所示,我们的 AAT 循环经过 N 个阶段,每个阶段都会经历两个连续的过程:即轮廓首选标记分组和基于注意力的特征合并。
1、大纲优先的令牌分组
基于特征的直接空间距离来聚类标记是不可行的,因为由于局部特征相关性而无法识别对象的轮廓。而通过二维卷积,我们利用最近邻聚类算法的变体,该算法考虑了标记之间的特征相似性和图像距离。
具体来说,给定一组标记 X 和聚类中心标记 Xc,对于每个标记,我们将指标δi 计算为最小特征距离减去它与任何其他聚类中心标记之间的平均像素距离:
其中,δi是表示i应该从属于哪个簇标记的指示符,xi和xj是标记i和j的特征向量。gl 是查找函数,可以找到每个token对应的特征图上的平均位置。β是一个超参数,距离约束要求图像空间中两个接近的标记必须具有极其相似的特征才能聚集到同一簇中。通过这种方式,我们将所有令牌分配到其对应的集群中。
2、基于注意力的特征合并
为了合并token特征,一个直观的方案是直接对每个簇中的token特征进行平均。然而,这样的方案会受到异常token的很大影响。受注意力机制的启发,我们为每个令牌附加注意力分数 p 以明确表示重要性,该重要性是根据令牌特征估计的。在注意力分数的指导下对令牌特征进行平均,如下所示:
其中 yi 是合并后的 token 特征;Ci表示第i个簇的集合;xj 和 pj 是原始 token 特征和相应的注意力分数,合并标记的区域是原始簇的并集。
图 3. ATT 模块示意图
特征图中的像素被视为初始视觉标记。在每个阶段 l 中,ATT 将 nl−1 个输入标记分配给选定的 nl 个簇中心标记。最后,使用转换器将自适应令牌关联起来,并用作下一阶段 l + 1 中的输入令牌。
为了通过远程自注意力机制关联自适应令牌,如图 3 所示,将合并的令牌作为查询 Q 馈送到transformer网络中,并将原始令牌用作键 K 和值 V。重要的token为了对输出做出更多贡献并减少异常值的影响,注意力分数p参与transformer注意力矩阵的计算:
其中 dk 是查询的通道号。当矩阵相加的维度不一致时,矩阵将数据扩展至合适的维度。引入令牌注意力分数 p 使我们的 ATT 能够在合并视觉令牌时专注于关键图像特征。
多阶段特征重建
先前的工作已经证明了不同尺度的特征图的多级堆叠和聚合对于检测任务的好处。为了从不规则标记重建特征图以进行特征增强,我们提出了多阶段特征重建(MFR),它能够通过历史记录对标记进行上采样并恢复特征图。
图 4 显示了建议的令牌上采样流程。MFR从最后一个阶段N开始,通过堆叠上采样过程和MLP块逐步聚合特征。在令牌上采样过程中,我们使用记录的令牌关系将合并的令牌特征复制到相应的上采样令牌中。最终的标记与特征图中的像素一一对应,并重新整形为 Mono3D 的特征图。
图 4. MFR 模块示意图
在之前提到的 token 聚类和特征合并过程中,每个 token 被分配到一个簇,然后每个簇由一个合并的 token 表示。记录原始标记和合并标记之间的位置对应关系。在上采样过程中,使用记录将合并的标记特征复制到相应的上采样标记中。为了聚合多个阶段的详细特征,MFR 将前一阶段的标记特征添加到上采样的视觉标记中。然后,令牌由多层处理 (MLP) 块进行处理。这样的处理分N个阶段逐步执行,直到所有令牌被聚合。最低级别的标记可以重塑为特征图,并通过 2D 卷积进行处理以进行进一步的 Mono3D 检测。
比如这些 Mono3D 检测器可以是基于 DETR 的,例如 MonoDETR和 MonoDTR,它们使用匈牙利算法就可以直接从标记中检测对象的 3D 属性。
总结
热门文章
更多精华美文扫码阅读
焉知汽车
希骥电池与储能
请先 登录 后再发表评论~