理想L9它也是个多模态的数据的检索这么一个引擎

摘要来自：《GTC2024：理想汽车对自动驾驶的思考及研发进展》

作者：NE时代

时间：2024-04-01

【易车摘要频道】下列精选内容摘自于《GTC2024：理想汽车对自动驾驶的思考及研发进展》的片段：

这里可以看一下我们在在公开数据引擎上的一些表现，有了这个之后，我们其实可以做很多，不仅仅是做重建，我们可以做很多这种场景的支撑，比如说加入一些新的fair或者加入一些新的动态物体，这样就可以就是创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的这个慢系统，但是中间串起来的是我们一个庞大的数据闭环的系统，我们基本实现了从数据的这种可以case的收集、自动化的挖掘、自动化的标注、自动化的训练，然后以及新的模型推到车端去做影子模式的验证，整套闭环已经做到非常高效。

随着我们朝L4做，其实一个很困难的点，就是说cornercase的挖掘，尤其是长尾的这种cornercase的挖掘怎么去实现？

传统咱们做挖掘就是通过一些规则去手写，然后去挖。比如说一些场景，比如说我们想挖掘一个骑行人打的雨伞，然后闯红灯横穿路口，这样场景就很难通过规则去匹配出来，我们也借鉴了多模态大语言模型的这个范式，做了一个工作叫BEV-CLIP，它也是个多模态的数据的检索这么一个引擎。我们通过大语言模型的能力，同时加入了自动驾驶的一些先验知识，然后训练了一个这种这个多模态的CLIP，通过这个CLIP我们就可以去类似刚才那种场景的一些复杂场景的一些检索，我们可以把这个场景以文字的方式描述出来，可以快速的找到我们想要的这样的场景。

对于数据闭环这边，云端其实NV方面的帮助也很大，我们跟他们在训练和云端的推理方面都做了很多的这种加速的工作，节省了我们大量的训练时间和推理时间，这时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外，其实对于车厂来说，因为我们有很多的车型，那车型之间的数据的复用和适配也是个很大的难点，我们也在NV的NeRF引擎之上，开发了一套数据复用的这么一个开关，我们比如说我们L9的一些数据，通过我们的重建，然后加上一些动态的编辑之后，我们形成新的场景，然后从通过新的Novelview projection投影到新的视角上，然后比如说Mega的传感器上，这样就形成了新的标注数据，这样我们很多历史数据都可以做出。

刚才讲了这个数据闭环，我刚才提到我们是国内最早做也是最大规模的，其实大家并没有太多概念，可以通过几个数字来看，其实我们现场全场景NOA已经达到了，这是年前的一个结果——4亿多公里。过年这期间其实现在已经涨到5亿多公里。除了这个数据之外，计算方面，尤其训练方面，也建设一个大的智驾的训练集群，现在达到了1.4亿FLOPS的计算能力，有了这些之后才能支撑上面快慢系统的快速迭代。

今天的主要内容就是这些，前面主要给大家介绍了我们理想汽车在过去几年的交付落地过程中，形成了对自动驾驶的整体的认知，以及我们整体的这个大的框架，整体还是基于一个快慢系统。

然后也介绍了我们几个关键点，一是L3方面的端到端的一些这个方案和落地的一些情况。

二点是我们在认知模型，主要是慢系统上我们做了一些工作。

三是，云端的世界模型上，也正在开展一些这种类似重建生成的一些工作，然后为我们的快慢系统提供一个好的事件的仿真引擎。

理想L9它也是个多模态的数据的检索这么一个引擎

最新资讯