新知一下
海量新知
5 9 8 1 3 9 5

基于三维时空卷积网络的自监督点云预测(CoRL2021)

3D视觉工坊 | 个人微信公众号:3D视觉工坊。 2021/11/26 09:55

摘要

大家好,今天为大家带来的文章是德国波恩大学StachnissLab的最新工作:Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks,论文及代码均已开源。

利用过去的三维激光雷达扫描来预测未来的点云是一种很有应用前景的方法,可以实现自主移动系统的状态预估、避碰和规划。在本文中,我们解决了在给定历史激光雷达扫描序列的情况下预测未来三维激光雷达点云的问题。直接在传感器的层级估计未来场景,不需要像定位或跟踪系统这样的步骤,可以进行自监督训练。我们提出了一种端到端方法,利用2D距离图像表示3D的激光扫描帧,并将一系列距离图像连接起来,以获得一个3D张量。基于这些张量,我们开发了一种使用三维卷积的编码器-解码器结构,聚合场景的空间和时间信息,并预测未来的三维点云。我们在多个数据集上评估了我们的方法,实验结果表明我们的方法优于现有的点云预测体系结构,并在不需要额外微调的情况下,能够很好地推广到新的、不可见的环境。该方法能够以比一般激光雷达扫描帧率(10HZ)更快的速度在线运行。

1 背景与贡献

随着自动驾驶技术的发展和对安全性能要求的提高,大多数无人车会搭载三维激光雷达(LiDAR)来感知周围的环境。LiDAR可以生成无人车周围场景的局部三维点云。这些三维点云数据可以被广泛用于机器人和自动驾驶相关任务,例如定位、物体检测、避障、三维重建、场景理解和轨迹预测等等。对于这些任务而言,如果能够对未来的观测进行预测,将是十分有益的。从机器学习的角度来看,点云预测也是一个非常有趣的方向,因为一旦采集了连续的数据集,在训练的过程中,某一时刻的未来观测值也是已经采集好的。这一连续时空属性使得神经网络可以通过自监督的方式学习,对未来点云进行预测。因此,在训练神经网络过程中无需昂贵的人工标记,可以在线评估网络预测性能,从而很好的在未知环境中进行使用。本文的主要贡献在于提出了一种新的基于距离图像的编码器-解码器神经网络,利用三维卷积联合处理点云的时空信息。该方法通过使用跳跃连接和圆形填充来获取环境的结构细节并保持水平一致性,提供比其他基准方法更准确的未来点云预测,同时能够以比一般激光雷达扫描帧率(10HZ)更快的速度在线运行。

2 方法

本文所提出方法如图1。

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

图1.方法概述。在

时刻,历史点云帧首先被投影到2D距离图像中进行表示,并连接起来。通过我们提出的时空3D CNN网络,组合预测掩模和距离张量,重新投影以得到未来的点云预测。

2.1 时空编解码结构

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

图2 .如图展示了我们的3D卷积神经网络结构,特征图大小为

。实线和虚线分别代表信息流和跳跃连接。每个块的详细细节在彩色框中,包括核尺寸

,步长

和填充

。如果未指定

,则不填充特征图。

我们首先将3D激光点投影到球面坐标中,然后进一步投影到图像坐标系,最终生成一张密集的2D距离图像。对于没有被投影的像素点,我们将其设置为0。如果有多个点投影到了同一像素,出于对前景目标预测的关注,我们将保留最近的激光点。关于距离图像投影的技术细节见附录A。图2展示了我们的编码器-解码器结构,它主要用于从输入序列中联合提取时空特征,最终输出距离图像的预测。与忽略时间和空间维度的多层感知器相比,卷积的使用加强了这些维度具有局部相关性的归纳偏差。当使用距离图像基于3D卷积进行点云预测时,需要沿着编码器和解码器之间的时间和空间维度具备足够的感受野,用以捕获历史帧中点的运动并将他们的位置传播到未来的距离图像中。

编码器采用尺寸为

的3D输入张量,包含高度为

,宽度为

张距离图像。我们首先根据训练数据的均值和标准差对距离值进行标准化,然后将标准化后的张量输入具有

个卷积核的输入层,得到尺寸为

的特征。类似于FutureGan,编码块在阶段

接收尺寸为

的张量,在保持尺寸的同时结合3D卷积、3D batch normalization,leaky ReLU激励。跨步3D卷积将张量降采样为

,其中

为预定义的降采样因子,

减少了时间特征维数。我们批处理归一化得到的张量应用于leaky ReLU激励。核大小为

,步幅为

以实现所需的下采样。下采样压缩了序列点云的特征表示,迫使网络学习有意义的时空特征。
为了预测未来

个时间步长的距离图像,译码器随后上采样特征张量至尺寸

。请注意,未来距离图像的数量在本结构中是固定的,但时间预测的视野能够以自回归的方式实现。这是通过将预测距离图像作为输入张量依次反馈得到的。在本工作中,我们只关注预测固定数量的未来点云。解码结构是编码结构的镜像版本。首先,利用大小为

的核和

的步幅增加特征图。在第二个3D CNN,3D BN,leaky ReLU之前插入一个3D BN和leaky ReLU层。最终,我们将大小为

的张量通过带有两个大小为

的核,步幅为

的3D CNN的输出层输出,并应用最终的Sigmoid函数得到0、1之间的归一化值。第一个输出通道映射到一个预定义的范围区间,从而产生未来的距离预测。第二个通道包含了每个距离图像点都是重投影有效点的概率,它保持所有概率大于0.5的点。这使得其可以滤除例如天空这样没有可用真值的点。

2.2 跳跃连接和水平圆形填充

我们使用跨步3D卷积和向下采样范围图像,如第2.1节所述。然而,特征空间的缩小会导致预测距离图像细节的丢失。我们通过在编码器和解码器之间添加跳跃连接来解决这个问题,以维护来自输入场景的细节。如图2所示,特征映射绕过剩余的编码步骤,镜像解码器阶段将它们与之前沿通道维上采样的特征体连接起来。连接使网络能够考虑编码器和解码器特征映射之间的时间偏移。随后结合了3D卷积、3D batch normalization(BN),leaky ReLU激励,在保持时间和空间维度的同时,将特征合并回原始通道数量。

使用距离图像进行三维点云预测的另一个挑战是保持距离图像水平边界的空间一致性。旋转激光雷达传感器(如Velodyne或Ouster)获得的距离图像是全景图像,图像边界之间有很强的水平相关性。如果车辆沿垂直z轴旋转,经过距离图像左侧边界的物体将出现在右侧边界上。为了考虑这个属性,我们在水平尺寸中引入了圆形填充。我们在每个特征图的左边加上它的右边,反之亦然。垂直尺寸用零填充。

2.3 训练

在训练网络时,我们将真值点云投影到尺寸为

的距离图像中,以计算基于2D图像的损失。我们将数据分割成由

个过去帧和

个未来帧组成的序列样本,其中后续样本相隔一帧。我们的结构是经过多重损失组合训练的。预测距离图像

与真值距离图像

时间步长的平均距离损失定义为

:

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

因此,距离损失仅计算有效真值点。我们基于预测概率

使用二元交叉熵损失训练掩模的输出:

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

当真值点有效时

为1,否则为0。这两种损失都只考虑预测的2D距离图像而不考虑重投影的点云以加速计算。为了与基于3D的方法如MoNet对比,我们在基于3D点的损失上对模型进行微调。常用的比较3D点云的度量是倒角距离。在时间

,我们将掩模作用后的距离图像投影为3D点云

,与真值点云

比较:

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

由于需要进行最近邻搜索,倒角距离的计算很慢。基于图像的损失计算比基于3D倒角距离要快大约2.5倍。我们提出了一种预训练方案,其中只包括距离和掩模损失。这为微调(包括倒角距离损失)提供了良好的初始化。给定当前时间步长

,对于未来

个时间步长的总损失为:

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

其中,

为可调节参数。在实验中,我们发现设置

用于预训练,

用于微调效果最好。

3 实验

A.定性分析

有无跳跃连接和有无圆形填充的比较:

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

B.定量分析

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)

C.运行时间

我们的方法在i7-6850K和RTX2080 Ti上,能够以90HZ的频率预测5个未来点云(每个点云131072个点)。与MoNet相比,我们的方法在两倍数量的情况下要快25倍。

D.消融研究

新知达人, 基于三维时空卷积网络的自监督点云预测(CoRL2021)


更多“算法”相关内容

更多“算法”相关内容

新知精选

更多新知精选