BEV图像处理对自动驾驶系统的性能优化( 三 ) 众所周知

文章图片

文章图片
这种表示与传感器特定的参考框架无关，并且捕获了周围场景的语义和几何信息。因为这些模式共享一个单输出表示，可以轻松地汇总产生融合的输出。多个神经网络，每个传感器模态（Radar ， Lidar和Camera）各一个，接收一系列输入传感器数据，通常对于自动驾驶而言会要求输出代表3个目标类别（弱势道路用户即VRU、车辆和背景）的一系列自上而下的共享语义网格；然后，使用聚合函数融合序列，以输出语义网格的融合序列。最后，再将其输入到一个解析器网络预测最终的鸟瞰图分割，做“填洞”和“平滑”等工作。
下面将具体讲解一下基于序列图像数据生成鸟瞰图方法。

文章图片

文章图片
整个系统总体架构包括用于每个传感器模式的神经网络，网络体系结构均由具有卷积层的编码器-解码器网络组成。与激光雷达和毫米波雷达网络相比，视觉网络使用略有不同的编码器和解码器方案， ResNet为主干，主要是解决像素空间特征问题。
Step1：首先对摄像头输入的图像进行畸变校正；为了创建鸟瞰图图像，点云数据中的相关轴将是 x 和 y 轴。一般汽车坐标系中的轴方向与真实世界坐标系是相反的。因此，必须移动这些值，以便 (0,0) 是图像中的最小可能值。
Step2：N个RGB道路场景图像由不同角度的摄像头（包括前视、侧视以及后视）捕获，并分别通过语义分割网络Semantic生成语义分割图和深度估计网络Depth生成深度估计图；
Step3：所得到的视觉图像语义分割和深度图被组合并投影到3-D变成语义点云，这里点云语义图可能是不完整的。
Step4：将该点云投影到完整的鸟瞰图中，进行BEV点云编码，整个处理过程涉及鸟图视角转化。相应的转化过程如下：
1）首先基于图像特征沿高度轴进行折叠生成条形特征图；
这一过程中必须限制所要查看矩形，且需要创建一个过滤器，只保留我们感兴趣的区域内的点，然后将点位置映射到像素位置，为了捕捉到更多的细节，需要进行数据缩放并通过平移转换映射到新的原点位置周围。由于我们使用点数据来指定图像中的 x 和 y 位置。因此，可以用高度数据来填充这些像素位置的值。但要注意像素值应该是整数且应介于 0-255 之间。
2）然后基于图像深度轴进行图像扩展生成对极鸟瞰图；
整个过程涉及创建图像数组，只需初始化一个数组，其维度取决于之前在矩形中所需的值范围和选择的分辨率。然后使用转换为像素位置的 x 和 y 点值来指定数组中的索引，并将之前滤波器过滤后的像素值的值分配给这些索引。
3）对极鸟瞰图在笛卡尔坐标系下进行重采样生成鸟瞰图视角特征图；
Step5：对编码及视角转化后的图像进行BEV图形解码生成BEV语义图；
在解码后为了查看鸟瞰图，需要将图像存储为一个 numpy 数组。如果我们希望将其可视化，我们可以将其转换为 PIL 图像并查看。可以在 matplotlib 中使用光谱颜色映射从而有助于我们更轻松地分辨价值差异。
总结
自动驾驶系统感知算法应用中，基于BEV的图像感知算法是应用得十分广泛的。特别是基于传感器融合的BEV算法可以很好的解决整个感知定位过程中的环境整体探测能力，更能生成如伪高精地图用于进行形式态势评估。特别针对自动驾驶之前的极端场景（如鬼影、大曲率弯道、不确定的3D障碍物等）的解决可以起到很好的规避作用。本文以BEV图像处理原理说明其在自动驾驶感知能力上能解决的场景应用，相信在机器视觉这一领域， BEV的研究成果也可以很好的应用在自动驾驶研究过程中。