理想L9性能-引擎-易车

理想L9性能_引擎

摘要来自：《GTC2024：理想汽车对自动驾驶的思考及研发进展》

作者：NE时代

时间：2024-04-01

【易车摘要频道】下列精选内容摘自于《GTC2024：理想汽车对自动驾驶的思考及研发进展》的片段：

同时在主动安全方面，我们也实现了业绩的顶尖的水平，现在我们基本已经就是说可以做到120km/h刹停，两轮车或者是三轮车可以做到100km/h的刹停，行人可能不做90km/h，除了这种正向的性能达到业界顶尖水平之外，这是远超行业标准的水平。那么在误触发方面我们要做到30万公里以上的误触发这个也是业界高的水平。去年的时候我们已经把城市NOA推给了20万的用户，这基本是中国大规模的城市NOA的推送，因为整体有20万的用户，大概去年年底是110城，现在已经做到114城。

随着我们的扩城，可能无论是在城市的数量上和这个覆盖率上也会逐渐提高，今年会把这个全国都开。

除了这个上面提到的L3端到端的一些进展，其实我们放了很多人在L4的一些预研上，刚才提到了第一点就是认知模型，我们会撤单，会跑一个慢系统，比如说快系统中可能有20赫兹，慢性的可能是5赫兹甚至1赫兹，做一些关键场景的决策。我们的方法然后是基于一个多模态的大语言模型，最近发表了一篇论文叫做Drive-VLM，它的思路是不需要任何其他的输入，从多模态语言模型直接出我们的这个规划结果，它是通过三阶段的CoT(注：基于推理的思想链) 去自动去检测，自动去做推理，比如现在的场景是什么？这里头这个场景里头对我的驾驶形成最关键的一些障碍物是什么？它跟我的交互关系是什么？

最后会输出我们叫Meta-action，其实是决策，就是说这个动作是什么样子，最后给出一个模型自动会给出一个三秒的规划结果。刚才提到这是我们的慢系统。结合刚才提到端到端的系统，我们形成了一个快慢系统，这个慢系统系统或者认知模型给出来的决策会和快系统结合在一起，最终给出一个更安全应对更多未知场景的一套系统。

整体的效果我们可以整体看一下，这收视模型直接无论里头框也好，还是底下的文字也好，都是模型自己给出来的，我看到了这样的场景，我会给出一个描述，然后最后给出decision，最后给出一个轨迹，直接一个模型，把所有的事情都做完。

我们在大量的这种corner case或者是L3或城市自动驾驶中遇到的一些这种问题中，都发现它其实对快系统的提升会非常非常多。大家可能关心的就是说LLM它太大了，怎么部署在车端？其实我们在跟nv的合作，一大部分工作也是在这个LLM在车上的加速，然后我们在Orin上已经部署，目前也取得了还不错的效果。

刚才提到除了我的快慢系统之外，还需要云端的世界模型去与车端去做交互训练它、验证它。最近大家SORA很火，因为它是个纯生成式，也看到它的一些问题，有些场景还是不太符合物理规律，所以我们的整体思路跟它有些差异，我们还是想在静态上通过重建，然后静态和动态一起生成，这样的话你在静态上更加符合物理规律，这样我们最近发表的一篇工作叫StreetGaussians，基本实现了实时的场景的重建和渲染。

这里可以看一下我们在在公开数据引擎上的一些表现，有了这个之后，我们其实可以做很多，不仅仅是做重建，我们可以做很多这种场景的支撑，比如说加入一些新的fair或者加入一些新的动态物体，这样就可以就是创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的这个慢系统，但是中间串起来的是我们一个庞大的数据闭环的系统，我们基本实现了从数据的这种可以case的收集、自动化的挖掘、自动化的标注、自动化的训练，然后以及新的模型推到车端去做影子模式的验证，整套闭环已经做到非常高效。

随着我们朝L4做，其实一个很困难的点，就是说cornercase的挖掘，尤其是长尾的这种cornercase的挖掘怎么去实现？

传统咱们做挖掘就是通过一些规则去手写，然后去挖。比如说一些场景，比如说我们想挖掘一个骑行人打的雨伞，然后闯红灯横穿路口，这样场景就很难通过规则去匹配出来，我们也借鉴了多模态大语言模型的这个范式，做了一个工作叫BEV-CLIP，它也是个多模态的数据的检索这么一个引擎。我们通过大语言模型的能力，同时加入了自动驾驶的一些先验知识，然后训练了一个这种这个多模态的CLIP，通过这个CLIP我们就可以去类似刚才那种场景的一些复杂场景的一些检索，我们可以把这个场景以文字的方式描述出来，可以快速的找到我们想要的这样的场景。

对于数据闭环这边，云端其实NV方面的帮助也很大，我们跟他们在训练和云端的推理方面都做了很多的这种加速的工作，节省了我们大量的训练时间和推理时间，这时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外，其实对于车厂来说，因为我们有很多的车型，那车型之间的数据的复用和适配也是个很大的难点，我们也在NV的NeRF引擎之上，开发了一套数据复用的这么一个开关，我们比如说我们L9的一些数据，通过我们的重建，然后加上一些动态的编辑之后，我们形成新的场景，然后从通过新的Novelview projection投影到新的视角上，然后比如说Mega的传感器上，这样就形成了新的标注数据，这样我们很多历史数据都可以做出。

理想L9性能-引擎

最新资讯