BEV图像处理对自动驾驶系统的性能优化( 三 )
文章图片
文章图片
这种表示与传感器特定的参考框架无关 , 并且捕获了周围场景的语义和几何信息 。因为这些模式共享一个单输出表示 , 可以轻松地汇总产生融合的输出 。多个神经网络 , 每个传感器模态(Radar , Lidar和Camera)各一个 , 接收一系列输入传感器数据 , 通常对于自动驾驶而言会要求输出代表3个目标类别(弱势道路用户即VRU、车辆和背景)的一系列自上而下的共享语义网格;然后 , 使用聚合函数融合序列 , 以输出语义网格的融合序列 。最后 , 再将其输入到一个解析器网络预测最终的鸟瞰图分割 , 做“填洞”和“平滑”等工作 。
下面将具体讲解一下基于序列图像数据生成鸟瞰图方法 。
文章图片
文章图片
整个系统总体架构包括用于每个传感器模式的神经网络 , 网络体系结构均由具有卷积层的编码器-解码器网络组成 。与激光雷达和毫米波雷达网络相比 , 视觉网络使用略有不同的编码器和解码器方案 , ResNet为主干 , 主要是解决像素空间特征问题 。
Step1:首先对摄像头输入的图像进行畸变校正;为了创建鸟瞰图图像 , 点云数据中的相关轴将是 x 和 y 轴 。一般汽车坐标系中的轴方向与真实世界坐标系是相反的 。因此 , 必须移动这些值 , 以便 (0,0) 是图像中的最小可能值 。
Step2:N个RGB道路场景图像由不同角度的摄像头(包括前视、侧视以及后视)捕获 , 并分别通过语义分割网络Semantic生成语义分割图和深度估计网络Depth生成深度估计图;
Step3:所得到的视觉图像语义分割和深度图被组合并投影到3-D变成语义点云 , 这里点云语义图可能是不完整的 。
Step4:将该点云投影到完整的鸟瞰图中 , 进行BEV点云编码 , 整个处理过程涉及鸟图视角转化 。相应的转化过程如下:
1)首先基于图像特征沿高度轴进行折叠生成条形特征图;
这一过程中必须限制所要查看矩形 , 且需要创建一个过滤器 , 只保留我们感兴趣的区域内的点 , 然后将点位置映射到像素位置 , 为了捕捉到更多的细节 , 需要进行数据缩放并通过平移转换映射到新的原点位置周围 。由于我们使用点数据来指定图像中的 x 和 y 位置 。因此 , 可以用高度数据来填充这些像素位置的值 。但要注意像素值应该是整数且应介于 0-255 之间 。
2)然后基于图像深度轴进行图像扩展生成对极鸟瞰图;
整个过程涉及创建图像数组 , 只需初始化一个数组 , 其维度取决于之前在矩形中所需的值范围和选择的分辨率 。然后使用转换为像素位置的 x 和 y 点值来指定数组中的索引 , 并将之前滤波器过滤后的像素值的值分配给这些索引 。
3)对极鸟瞰图在笛卡尔坐标系下进行重采样生成鸟瞰图视角特征图;
Step5:对编码及视角转化后的图像进行BEV图形解码生成BEV语义图;
在解码后为了查看鸟瞰图 , 需要将图像存储为一个 numpy 数组 。如果我们希望将其可视化 , 我们可以将其转换为 PIL 图像并查看 。可以在 matplotlib 中使用光谱颜色映射从而有助于我们更轻松地分辨价值差异 。
总结
自动驾驶系统感知算法应用中 , 基于BEV的图像感知算法是应用得十分广泛的 。特别是基于传感器融合的BEV算法可以很好的解决整个感知定位过程中的环境整体探测能力 , 更能生成如伪高精地图用于进行形式态势评估 。特别针对自动驾驶之前的极端场景(如鬼影、大曲率弯道、不确定的3D障碍物等)的解决可以起到很好的规避作用 。本文以BEV图像处理原理说明其在自动驾驶感知能力上能解决的场景应用 , 相信在机器视觉这一领域 , BEV的研究成果也可以很好的应用在自动驾驶研究过程中 。
- 智库论坛 | 社区电商推动供应链数字化转型的对策建议
- 2022首场工业数字化供需对接大会举办
- 斗罗大陆魂师对决魂力怎么入手(斗罗大陆魂师对决魂力获取方法介绍)
- 对方手机关机微信视频能打通吗(手机关机打微信视频显示页面说明)
- 抖音拉黑别人怎么不看对方视频(抖音拉黑好友具体步骤)
- qq号能查出对方的手机号码吗(qq号查看对方手机号方法说明)
- 伊甸园的骄傲角色对应什么动物(伊甸园的骄傲角色对应动物分析)
- 斗罗大陆魂师对决强势武魂怎么选(斗罗大陆魂师对决强势武魂高分选择指南)
- 斗罗大陆魂师对决魂骨怎么获取(斗罗大陆魂师对决魂骨领取途径分享)
- 上市企业“海选”数字转型解决方案,这条“开放式创新”的路走对了
