你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox
当前位置:易车> 摩卡速度摘要> 摘要详情

摩卡速度-空间-雷达

摩卡速度_空间_雷达

摘要来自:《超车华为、小鹏,毫末的城市NOH能做到么?》

【易车摘要频道】下列精选内容摘自于《超车华为、小鹏,毫末的城市NOH能做到么?》的片段:

是否依赖高精地图做城市 的差别,就像是开卷考试和闭卷考试,高精地图里的“先验信息”就如同老师考前划的重点,能省事但拓展性不足,而且实际做题过程中,闭卷考试的答题速度肯定比开卷考试快,毕竟都记在脑子里了。

还原到一个具体的路口左转的场景来理解,高精地图会告诉你前方 150 米处要左拐,车辆距离路口 100 米处触发向左变道就行。到了路口,高精地图还会告诉你红绿灯在哪个位置,哪个灯对应的是左拐,摄像头定向去看颜色就行。

当没有高精地图时,想要实现领航辅助功能,系统得自己理解道路环境的意思,自己判断哪条路能左转?什么时候左转?左转看哪个灯?灯在什么位置?

毫末智行的方案更接近人的日常驾驶,他使用了某图商定制的 SD+地图,仅调用基础的道路拓扑结构和导航指令(如下个路口右拐这样的指令信息),剩下的就交给感知算法了。

还原到刚才那个路口左转的场景,毫末的方案就通过 SD+地图结合定位信息,知道前方路口要左拐,通过摄像头的感知信息寻找合适的变道时机,到了路口通过算法找到红绿灯的位置,并通过深度学习判断红绿灯和道路的绑定关系,最后根据写好的道路规则通过路口。

很显然后者的难度会大非常多,上次的 AI DAY 上,毫末也完整地介绍了自己的感知算法,引入注意力机制的 Transformer 模型利用多机位的信息获得更好的车道线识别效果,通过专项训练获得更好的红绿灯感知。

这幅画面就是毫末通过正前、侧前、侧后、正后 6 个机位,用 Transformer 在 BEV 空间实时构建的虚拟地图。由于注意力机制的存在,这套模型不仅可以串联起 多个视角的画面,还能串联起多个视角画面的前后帧,在空间的三维尺度上,增加了时间这个维度。

毫末现阶段引入多帧信息是为了消除抖动,例如这一秒摄像头是被遮挡的,但是前一秒车还在另一个位置的时候拍到了完整的车道线画面,就能综合多帧画面输出一个完整的车道线感知。

这种做法其实我们生活中接触非常多,例如我们在暗光环境下用手机拍照,相机会延长拍摄时间,然后把多帧画面的光叠在一起,就构成了一张更清晰的照片。

这就像是用四维的信息去做三维的题,属于是降维打击了。

此外上面的技术架构中,除了视觉的 BEV 之外,还有一行 PointPilars(点柱),它也有一幅 BEV 的图。这个在本次 AI Day 上没有提,它实际上是激光雷达的感知结果,用PointPilars 的方式呈现出具有深度信息的 BEV 画面,激光雷达的信息叠加视觉,就构成了毫末的出色感知能力。

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外