挑战传统！首个数据驱动的事件相机特征追踪框架横空出世！（1）

计算机视觉工坊 | 2023-08-19 19:56:44 阅读：1799

分辨率、增强的运动模糊恢复能力以及稀疏的输出。这些特点使其成为低延迟和低带宽特征跟踪的理想选择，即使在具有挑战性的场景中也能表现出色。目前的事件相机特征跟踪方法通常由手工制作，或由第一原理衍生。这些方法都需要进行大量的参数调整，并且对噪声非常敏感。另外，由于未能完全考虑所有影响因素，这些方法无法推广到不同的场景中。为了解决事件相机特征跟踪方法存在的缺陷，本文针对事件相机提出了一种全新数据驱动的特征跟踪模型（First）。该方法利用低延迟事件数据，对灰度帧中检测到的特征进行跟踪。通过使用帧注意力模块，实现跨特征通道的信息共享，并提供更鲁棒的性能表现。通过直接将合成数据的零样本迁移到真实数据上，数据驱动跟踪模型在相对 Feature Age 的表现超过现有方法（最高达到了120％），同时实现了最低的延迟。通过采用新颖的自监督策略使我们的跟踪模型适应真实数据，这种性能差距进一步扩大到 130%。

1 前言

尽管目前有许多成功的方法进行特征跟踪，但现有的特征跟踪器仍受到标准相机硬件性能的限制。首先，标准相机面临带宽延迟权衡，这明显限制了它们在快速移动下的性能：在低帧速率下，它们具有最小的带宽，但代价是延迟增加；此外，低帧率会导致连续帧之间出现较大的外观变化，从而显着增加跟踪特征的难度。在高帧速率下，延迟会减少，但代价是增加带宽开销与下游系统的功耗。标准相机的另一个问题是运动模糊，这在高速低照度场景中尤为突出。随着当前AR/VR设备的商品化，这些问题变得更加突出。事件摄像机已被证明是标准相机的理想替代品，可以解决带宽延迟权衡问题。事件相机是仿生视觉传感器，只要单个像素的亮度变化超过预定义的阈值，就会异步触发信息。由于这种独特的工作原理，事件摄像机输出时间分辨率为微秒级的稀疏事件流，并具有高动态范围和低功耗的特点。由于事件主要是根据边缘对应触发的，因此事件相机呈现最小的带宽。这使得它们非常适合克服标准相机存在的缺点。为了解决这些缺陷，本文提出了第一个用于事件相机的数据驱动特征跟踪模型，它利用事件相机的高时间分辨率与标准帧相结合来最大限度地提高跟踪性能。基于神经网络模型，在后续事件流中定位来自灰度图像的模板图像来跟踪特征。为了提高跟踪性能，引入了一种新颖的帧注意模块，该模块可以在一个图像中的特征跟踪之间共享信息。首先在合成光流数据集上进行训练，然后使用基于使用相机姿势的 3D 点三角测量的新颖自我监督方案对其进行微调。本文的跟踪模型在事件相机数据集基准 EC 和最近发布的 EDS 数据集上分别比最先进的方法高出 5.5% 和 130.2%。无需大量手动手动调整参数即可实现此性能。此外，在不优化部署代码的情况下，本文的方法比现有方法实现了更快的推理速度。最后，将本文的方法与成熟的基于帧的跟踪器 KLT 进行结合，在高速场景中充分利用两种数据的优点。

2 相关背景

在高速和高动态范围场景中，现有事件相机特征跟踪方法的延迟和跟踪鲁棒性具有极好的效果。但是，到目前为止，基于事件的跟踪方法仍是基于经典模型假设设计的，这会导致在存在噪声的情况下跟踪性能较差。它们要么依赖于运动参数的迭代优化，要么对特征可能的变换进行简单的分类。因此，由于未建模因素的影响，不能推广到不同的场景中去。此外，它们通常具有复杂的模型参数，需要大量的手动调整以适应不同的事件相机和不同的场景。

3 方法

特征跟踪算法旨在在后续时间步中跟踪参考系中的给定点。通常通过提取参考帧中特征位置周围的外观信息，然后在后续帧中进行匹配和定位。遵循此流程，本文在时间步处对给定位置提取灰度帧中的图像，并使用异步事件流跟踪该特征。时间步和之间的事件流由事件组成，每个事件编码像素坐标、微秒级分辨率的时间戳和极性。给定参考图像，本文的网络使用前一时间步的特征位置的局部邻域中的相应事件流来预测和期间的相对特征位移。本地窗口内的事件被转换为密集事件表示，具体来讲使用 SBT 的最大时间戳版本进行数据预处理，其中每个像素都分配有最近事件的时间戳。一旦网络将参考补丁定位在当前事件补丁内，就会更新特征轨迹，并在新预测的特征位置提取新的事件流，同时保留参考图像块。然后重复这一过程，同时累积相对位移以构建一个连续的特征轨迹。本文方法和帧注意力模块的概述如图 2 所示。

3.1 Feature Network - 特征提取网络

为了在当前事件流内定位模板图像中的特征，特征网络首先基于FPN编码器对两个图片进行编码。生成的输出是两个图像的逐像素特征图，其中包含上下文信息，同时保留空间信息。为了计算事件图片和模板图片中每个像素之间的相似性，本文基于模板图片编码器的瓶颈特征向量和事件补丁的特征图构建了一个相关图，如下图所示。随后，将两个特征图与相关图组合作为后续特征编码器的输入，以细化相关图。该特征编码器由标准卷积和一个具有时间状态的 ConvLSTM 块组成。时间信息对于预测随时间变化的特征轨迹至关重要。此外，它还可以集成事件提供的运动信息。特征网络的输出是空间维度为1×1的单个特征向量。到目前为止，每个特征都是相互独立处理的。

3.2 Frame Attention Module - 帧注意力模块

为了在同一图像不同特征之间进行共享信息，本文引入了一种新颖的帧注意模块，如下图所示。由于刚体上的点在图像平面中表现出相关运动，因此在图像上的特征之间共享信息有很大的好处。为了实现这一点，本文的帧注意力模块将当前时间步处所有图像块的特征向量作为输入，并基于所有特征向量的自注意力加权融合计算每个图像块的最终位移。具体来说，在一段时间内为每个特征设定一个状态，以便利用注意力模块融合中先前时间步中的位移预测。时间信息有助于与过去具有相似运动的特征之间的信息共享。这样，通过在相似的特征轨迹上自适应地调节它们，可以在具有挑战性的情况下维护易受攻击的特征轨迹。每个输入特征向量首先使用两个具有 Leaky ReLU 激活函数的线性层(MLP) 与当前状态融合（每个特征向量单独进行）。然后，图像中产生的所有融合特征都将用作多头注意力（MHA）的 key、query 和 value，增强图像每个特征自身信息的提取。为了促进训练，在每个特征的多头注意力周围引入了一个跳跃连接，该连接在训练过程中通过 Layerscale 层 (LS) 进行自适应加权。然后，在门控层中使用所得的特征向量，根据先前的状态(GL) 计算更新的状态，具体的公式如下所示。

最终，更新后的状态通过单个线性层进行处理用来预测最终位移。

3.3. Supervision - 监督（损失函数）

跟踪网络、提取网络甚至流网络的监督仍然是一个开放的研究领域，因为包含像素级对应作为真值的数据集很少见。更糟糕的是，基于事件的精确像素对应的数据集更少。为了克服这个限制，本文首先使用来自 Multiflow 数据集的合成数据来训练本文的网络，其中包含帧、合成生成的事件和真实像素流。然而，由于没有对噪声进行建模，因此合成事件与真实事件摄像机记录的事件有很大不同。因此，在第二步中，使用新颖的姿势监督损失来微调本文的网络，以缩小合成事件和真实事件之间的差距。

3.3.1 Synthetic Supervision - 合成数据监督

合成数据的好处在于它提供了真实的特征轨迹。因此，基于L1距离损失可以直接应用于预测和真实值之间的每一个预测步骤的预测和真是位移之间的相对位位移，如图3所示。有可能预测的特征轨迹发散到模板块之外，使得下一个特征位置不在当前搜索中。因此，如果预测位移和真实位移的差值| | Δf ( j-Δfj | | 1 )超过了块半径r，我们不将L1距离加到最终损失中，以避免在监督中引入噪声。我们的截断损失函数的定义如下所示：

3.3.2 Pose Supervision - 位姿监督

为了使网络适应真实场景，引入了一种新颖的仅基于已标定相机真实姿态的姿态监督损失函数。利用运动结构回复（SFM）算法，例如COLMAP，或者通过外部运动捕捉系统，可以很容易地获得稀疏时间步的真实姿态。由于本文的监督策略依赖基于位姿的3D点的三角剖分，因此只能应用在静态场景中。在微调的第一步，跟踪模型预测一个事件序列的多个特征轨迹。对于每个预测轨迹，直接使用Direct Linear Transform(DLT)算法计算相应3D点。具体来说，对于每个特征位置，可以使用相机位姿假设针孔相机模型的投影方程，表示为时间步的旋转矩阵、平移向量与标定矩阵，具体计算如下述公式。由此得到的投影矩阵可以表示为由列向量组成的矩阵，其中。

利用DLT算法，可以将投影方程转化为如下述公式的齐次线性方程组。通过SVD，得到使方程的最小二乘误差最小的三维点。一旦计算出的三维位置，就可以利用透射投影公式来找到每个事件步相对应的重投影像素点。。最终的位姿监督损失函数根据预测的特征和在时刻每个可用的相机位姿的重投影特征构建。如图4所示。本文使用如下的截断损失函数，当重投影的特征不在事件块之内时，排除该部分损失函数的值。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。