理想L9安全性-泊车-易车

理想L9安全性_泊车

摘要来自：《GTC2024：理想汽车对自动驾驶的思考及研发进展》

作者：NE时代

时间：2024-04-01

【易车摘要频道】下列精选内容摘自于《GTC2024：理想汽车对自动驾驶的思考及研发进展》的片段：

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上，理想汽车智能驾驶技术研发负责人贾鹏对理想汽车的自动驾驶阐述了端到端模型、大语言模型、视觉语言模型等模型的应用，以及如何提升自动驾驶的安全性等方面进行了详细阐述。

以下是贾鹏演讲内容整理，在不影响原意的基础上略有整理和删减。

注：关注“智车引擎”公众号，并回复数字 “3”，将获得本场讲演的ppt和相关论文。

代码、规则向知识驱动发展

理想汽车从2021年开始自动驾驶的自研，我们从L2开始就是高速NOA开始，逐渐的对自动驾驶这件事情形成了一个比较独特的认知。对于L2来说，都是在固定的场景，已知的场景或者是这种封闭场景，比如高速、城快中去做辅助驾驶，人需要的时候去接管。

这一部分其实过去都是以rule base为主，只有感知部分可能做了一部分的AI化或者模型化，咱们传统用的2G的感知或者是demo的3D，其他部分还是以一些工程化代码、一些规则为主。去年开始大家开始卷城市NOA或者全场景NOA，这一方面，随着开城的进展，大家可能可能都做到全国的开放，这一部分我们称之为L3，一部分因为比L2要困难非常多，它的场景要丰富非常多，传统的L2范式就没办法在L3里去用。随着特斯拉的打样，它是开发出一条新的路，就让数据驱动。

比如说在所有的模块感知、规控都逐渐做成模型化，这里比较大家熟知的BEV的感知做到了比如说多传感器多摄像头的前融合，它的极致就是端到端。完整的端到端就从感知一直到跟踪、预测、决策、规划都做到模型化。这里比较有代表性的就是特斯拉的V12，做到了端到端的模型，不仅是完全模型化，而且可以做到端到端的可虚拟。即使做到了数据驱动或者端到端，是否就可以做到L4？我们自己的思考还是没法没法实现的。因为到了L4在任何的未知场景中，用户都不需要去做监管，因为我们在现实世界中，未知场景是无穷多的，尤其一些长尾的问题，通过数据驱动可能没办法去解决，数据驱动本身还是有了数据，我才能真正去理解，去场景里使用。对于L4来说，我们逐渐认识到可能需要一个新的范式，我们称之为这个知识驱动。

随着大语言模型的过去两年的火爆，其实在L4级别，车辆怎么去应对未知场景，我们可能就需要真正的对世界进行理解，有一定的这种常识去理解世界，我才能做到这个未知场景下才能安全的去驾驶，比如说刚刷的水泥地，如果是传统的数据推广方式，这样的场景非常少，而且我们的模型没有办法理解，如果有了这种超大的LLM 或者是多模态的视觉语言模型，他有这样的常识，他带着场景里他就可以去安全的做驾驶。

理想自动驾驶开发框架

我们现在做L3以及将来做L4都是基于这个框架去进行的，它跟人的思维非常接近，分成快慢系统，快系统就是system1，他是偏直觉，偏有点类似肌肉记忆或者是这种应激反应，我看到类似的场景，我就去执行这样的动作。这一part就是对于我们L3端到端的模型。很直观的就是传感器看到什么样的场景，我做出什么样的决策和动作。

人的另一part其实是慢思考，比如说我做思考题，我做应用题的时候，我需要一定的思考的时间，我们称之为System2，它主要是做一些逻辑的思考。刚才提到在L4的这种这种未知场景或者是复杂场景里，我们得具备这样的常识或者要上他的能力，这一块我们是可以去使用。所谓的认知模型就是偏 LLM去解决这一部分，是它提供了一个基础的一些世界的知识，形成对世界的一定的认知和逻辑思维，同时由于这个模型会比较大，我们还会做一些短期的一些知识的更新，比如通过一些外部去实现这个认证认证模型的一些快速的迭代，这两part结合在一起，但是我们觉得最终能解决L4的整体的车端的框架，除了车端的系统之外，我们还需要一个巨大的云端的试点模型，它的主要作用是去训练快慢系统跟物理世界去做交互，从中不断的去学习。

这个其实有点类似最近比较火爆的sora，它是一个生成式的世界模型，有了它之后，我们就可以通过一个闭环去训练我们的整体的车端的系统，中间的这些领域其实都是我们的数据闭环，有大量的这种数据和训练的快速迭代。

理想自动驾驶亮点介绍

接下来我会从这4个方面去介绍理想汽车，在这个自动驾驶的一些这种亮点，第一部分就是我们端到端的模型，落地的一些场落地的一些情况。第二部分是我们的认知模型，我们的一些预研的进展，然后第三部分是我们世界模型的一些进展，最后是把我们的这个增长的数据闭环里头的一些亮点介绍给大家。

第一部分端到端部分。其实我们做端到端模型已经很长一段时间了，其实业界最早的比如说基于BEV的 3D的一些感知、动态的感知、静态的感知，包括track模型化、前融合都是理想汽车最早一些工作，这也是业界的比较早的一些文章。

基于这些这些工作，我们其实去年量产我们的AD Max3.0推给了我们的全量用户，它的整体框架已经偏端到端，但是还没有完整的端到端，今年会把它作为一个彻底端到端。

它主要是分成三个大的模块，第一个其实是我们感知模型，这是一个大的BEV的感知模型，我们把所有的感知任务统一到一个模型里，包括静态、动态、通用障碍物，预测、决策和规划也做到了模型化，放到了一个模型里，这两部分我们会在今年会把他们的统一在一起，形成一个端到端可训的大模型。

然后另一部分其实在中国很挑战的是红绿灯，因为中国的红绿灯五花八门，各地的红绿灯的样式不同、规则不同，以前的做法是我们会把红绿灯检测出来，然后跟车道做一个关联匹配，然后才能得到本车道的红绿灯状态。

我们红绿灯部分其实是把 Temporal Planner彻底做成一个端到端的模型，进来就是我们的传感器，我们这个模型的输出就是本车道的红绿灯的状态或者意图。同样的一套框架，我们其实做到了这个行车和泊车的一体化。

在此过程中其实和英伟达的合作比较多主要是其中一块比较突出的工作是在我们车端的推理方面跟用它合作进行了一个推理的加速，从我们最早的9赫兹到现在21赫兹，这是我们整个模型方面，也是很感谢NV的帮助，把这个模型推理速度提升提升了很大一部分。

然后基于之上的一些工作，其实我们去年年底推送的AD Max3.0，其实在4个产品里面多少都实现了业界的顶尖水平。

第一个是全场景的NOA，这个全场景包括了高速和城区，城区里面包括了红绿灯路口的左右转，红绿灯的刹停和启停，然后还有包括比如说施工道路的这种避让，静止或者违章车的绕行。在LCC方面跟传统的LKA不一样的是我们的LCC可以做到红绿灯的启停，然后同时也可以做到直行车道上自动的超车变道，同时也可以实现施工路段以及这个违章车的绕行避让，这得益于我们软件的一体化，在泊车方面也得到了一个巨大的提升。除了传统的这个自动泊车之外，我们还实现了一个长距离的AVP，就是从下车过那一刻开始，它可以自动把你带到你的停车位，这期间比如说这有跟其他车的一些博弈、行人的博弈，甚至包括超载车道对其他车的倒车让行都已经能够实现。

理想L9安全性-泊车

最新资讯