看四家技术代表如何演绎智能驾驶的“百家争鸣”!( 三 )


看四家技术代表如何演绎智能驾驶的“百家争鸣”!
文章图片

文章图片
所以我们可以看到特斯拉整个结构是一个主干 , 然后把这些“超浓缩”的特征信息加上了时间和空间信息 , 再划分成多个分支、多个任务(例如任务一是信号灯检测、任务二是车道线检测...等等) 。但这样的问题还只是解决了一半 , 我们之前提到的「单帧」带来的问题 , 也就是无法连续输出的问题还没有解决 。因为我们不知道这个物体存在的前因后果(它上一刻在哪里、下一刻会到哪里去) , 也就是路上突然出现一个人、一台车、一个道路标识我们都不知道它为什么出现、要去哪里、代表什么意思 。这就是特斯拉为什么说「lack of memory」 。
看四家技术代表如何演绎智能驾驶的“百家争鸣”!
文章图片

文章图片
解决问题的根本是要添加一个时空概念 , 让系统记录这个目标物的“前后信息” 。例如我们可以每隔一段时间将缓存的信息发回 , 利用视频单元 , 这样通过计算我们就知道每一帧物体是怎么运动的、周围环境发生哪些变化 。
看四家技术代表如何演绎智能驾驶的“百家争鸣”!
文章图片

文章图片
【看四家技术代表如何演绎智能驾驶的“百家争鸣”!】每个目标物前面的引导线就是系统对其预测的路线 。这就是「feature queue(特征队列)」和「video module(视频单元)」两大新增模块的重要存在意义 。这时候全新的神经网络结构就诞生了:
看四家技术代表如何演绎智能驾驶的“百家争鸣”!
文章图片

文章图片
所以我们除了知道路上的车辆信息还有深度信息 , 解决单帧信息后还能带来两个重要的好处:一个是「我们知道了目标物移动的信息」 , 也就是我们有记忆了 , 能够连续追踪物体做预测 , 也利于下游的规划和控制 。另一个是我们对环境理解后方便「建图」与「定位」 , 例如利用多车、多环境完成车队建图 。至此特斯拉的神经网络有了一个全新的结构 。2、 开启软件算法迭代 : 数据驱动、 众包建图与场景训练拥有了一整个神经网络就是我们提到的框架 , 就像我们搭建好了一个房子框架 。而设计好一套高性能的神经网络没有好的数据跑 , 就如同我们建了一套房子没人住、建了一条高速没车跑一个道理 , 所以此时数据与训练就像血液一样让整个机器有了“灵魂”、“生命” 。(1)数据标注要让数据在框架上跑 , 首先要给每个数据“分队列” , 做好标记 。现阶段大部分全栈自研的车企都拥有自己的数据标注团队 , 这里考验的是:在大家都有数据的情况下 , 如何提高数据标注效率、给数据标注时更多维度的信息 , 成为核心竞争 。这里顺带提一下 , 特斯拉在 AI Day 现场“吐槽”了原先的合作商 , 因为关键的数据集掌握在第三方手里 , 合作上也不及时跟进 , 现场吐槽“数据质量也不怎么样” 。其实关键的一点是无论技术路线如何演进 , 数据还是特别值钱的 。
看四家技术代表如何演绎智能驾驶的“百家争鸣”!
文章图片

文章图片
某互联网公司的数据采集与标注服务 。这些数据可以来自自测车、用户车辆 , 还有视频、GPS、IMU、里程计等等 。在人工标注上特斯拉目前有规模超过 1000 人的标注团队 , 对车辆、行人、雪糕筒、道路标线等做标注 。当然除了人工标注 , 在自动标注上也在不断优化 。甚至特斯拉还因为数据标注上重新设计一整套架构 , 在新架构中加入 4D 数据标注 。过去的标注是基于 2D 图像 , 所以在加入的 4D 数据标注中 , 我们看到我们熟悉的 3D 维度 , 同时再加入一个时间维度 。这样做的意义是当加入时间维度后 , 系统就能够检测到正在移动的动态物体 , 能够计算物体的方向与速度 , 以此来提供一个预测信息 。