你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox
当前位置:易车> 理想L9性能摘要> 摘要详情

理想L9性能-引擎

理想L9性能_引擎

摘要来自:《GTC2024:理想汽车对自动驾驶的思考及研发进展》

【易车摘要频道】下列精选内容摘自于《GTC2024:理想汽车对自动驾驶的思考及研发进展》的片段:

同时在主动安全方面,我们也实现了业绩的顶尖的水平,现在我们基本已经就是说可以做到120km/h刹停,两轮车或者是三轮车可以做到100km/h的刹停,行人可能不做90km/h,除了这种正向的性能达到业界顶尖水平之外,这是远超行业标准的水平。那么在误触发方面我们要做到30万公里以上的误触发这个也是业界高的水平。去年的时候我们已经把城市NOA推给了20万的用户,这基本是中国大规模的城市NOA的推送,因为整体有20万的用户,大概去年年底是110城,现在已经做到114城。

随着我们的扩城,可能无论是在城市的数量上和这个覆盖率上也会逐渐提高,今年会把这个全国都开。

除了这个上面提到的L3端到端的一些进展,其实我们放了很多人在L4的一些预研上,刚才提到了第一点就是认知模型,我们会撤单,会跑一个慢系统,比如说快系统中可能有20赫兹,慢性的可能是5赫兹甚至1赫兹,做一些关键场景的决策。我们的方法然后是基于一个多模态的大语言模型,最近发表了一篇论文叫做Drive-VLM,它的思路是不需要任何其他的输入,从多模态语言模型直接出我们的这个规划结果,它是通过三阶段的CoT(注:基于推理的思想链) 去自动去检测,自动去做推理,比如现在的场景是什么?这里头这个场景里头对我的驾驶形成最关键的一些障碍物是什么?它跟我的交互关系是什么?

最后会输出我们叫Meta-action,其实是决策,就是说这个动作是什么样子,最后给出一个模型自动会给出一个三秒的规划结果。刚才提到这是我们的慢系统。结合刚才提到端到端的系统,我们形成了一个快慢系统,这个慢系统系统或者认知模型给出来的决策会和快系统结合在一起,最终给出一个更安全应对更多未知场景的一套系统。

整体的效果我们可以整体看一下,这收视模型直接无论里头框也好,还是底下的文字也好,都是模型自己给出来的,我看到了这样的场景,我会给出一个描述,然后最后给出decision,最后给出一个轨迹,直接一个模型,把所有的事情都做完。

我们在大量的这种corner case或者是L3或城市自动驾驶中遇到的一些这种问题中,都发现它其实对快系统的提升会非常非常多。大家可能关心的就是说LLM它太大了,怎么部署在车端?其实我们在跟nv的合作,一大部分工作也是在这个LLM在车上的加速,然后我们在Orin上已经部署,目前也取得了还不错的效果。

刚才提到除了我的快慢系统之外,还需要云端的世界模型去与车端去做交互训练它、验证它。最近大家SORA很火,因为它是个纯生成式,也看到它的一些问题,有些场景还是不太符合物理规律,所以我们的整体思路跟它有些差异,我们还是想在静态上通过重建,然后静态和动态一起生成,这样的话你在静态上更加符合物理规律,这样我们最近发表的一篇工作叫StreetGaussians,基本实现了实时的场景的重建和渲染。

这里可以看一下我们在在公开数据引擎上的一些表现,有了这个之后,我们其实可以做很多,不仅仅是做重建,我们可以做很多这种场景的支撑,比如说加入一些新的fair或者加入一些新的动态物体,这样就可以就是创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的这个慢系统,但是中间串起来的是我们一个庞大的数据闭环的系统,我们基本实现了从数据的这种可以case的收集、自动化的挖掘、自动化的标注、自动化的训练,然后以及新的模型推到车端去做影子模式的验证,整套闭环已经做到非常高效。

随着我们朝L4做,其实一个很困难的点,就是说cornercase的挖掘,尤其是长尾的这种cornercase的挖掘怎么去实现?

传统咱们做挖掘就是通过一些规则去手写,然后去挖。比如说一些场景,比如说我们想挖掘一个骑行人打的雨伞,然后闯红灯横穿路口,这样场景就很难通过规则去匹配出来,我们也借鉴了多模态大语言模型的这个范式,做了一个工作叫BEV-CLIP,它也是个多模态的数据的检索这么一个引擎。我们通过大语言模型的能力,同时加入了自动驾驶的一些先验知识,然后训练了一个这种这个多模态的CLIP,通过这个CLIP我们就可以去类似刚才那种场景的一些复杂场景的一些检索,我们可以把这个场景以文字的方式描述出来,可以快速的找到我们想要的这样的场景。

对于数据闭环这边,云端其实NV方面的帮助也很大,我们跟他们在训练和云端的推理方面都做了很多的这种加速的工作,节省了我们大量的训练时间和推理时间,这时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外,其实对于车厂来说,因为我们有很多的车型,那车型之间的数据的复用和适配也是个很大的难点,我们也在NV的NeRF引擎之上,开发了一套数据复用的这么一个开关,我们比如说我们L9的一些数据,通过我们的重建,然后加上一些动态的编辑之后,我们形成新的场景,然后从通过新的Novelview projection投影到新的视角上,然后比如说Mega的传感器上,这样就形成了新的标注数据,这样我们很多历史数据都可以做出。

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外