极越01极越想的是进一步提升纯视觉方案OCC技术的能力

作者：电车通

时间：2024-03-25

【易车摘要频道】下列精选内容摘自于《智驾要比问界更牛？极越AI Day晒黑科技，有最新OTA》的片段：

极越是目前市面上唯二坚持纯视觉智驾方案的电动车企业，尤其是在特斯拉FSD未能入华的情况下，在中国市场上多了一份独特意义。

当然，纯视觉算法如果应付高速高架这些相对简单的场景肯定是够用了，但极越的目标肯定是PPA辅助驾驶系统“全国都能用”，如此一来继续推进纯视觉算法的提升就变得非常重要。

这一次的AI Day上，极越向我们介绍了是如何利用AI大模型赋能让纯视觉算法更加聪明，已经为即将到来的城区PPA功能做好准备。

升级点其一针对OCC，也就是我们常说的“占据网络”，这是车内智驾系统理解真实世界的重要手段，极越想的是进一步提升纯视觉方案OCC技术的能力。极越提到，在数据训练的场景中他们部署了三种方案，分别是应对远距离视觉识别场景的“RIFLE”、中距离的“PISTOL”和近距离的“DAGGER”，这三种训练方案分别融入了不同波长的激光雷达，利用激光雷达生成的点云图，帮助视觉算法OCC更好地了解真实世界。

是的，在车载端使用纯视觉智驾方案的极越也有融入激光雷达，只不过是在数据训练的场景中。而针对不同视距的数据训练能够进一步提升视觉OCC的感知能力，让“眼神”更加锐利。

其次极越通过算法逻辑的升级让智驾系统能够理解路面物体的“时序关联”和“速度估计”，背后融入了一定的算法逻辑，让系统具备推理能力。简单来说，传统的方案是系统见到什么就是什么，不能联想和推理出同一物体具备移动能力，在被遮挡消失后还会出现，但现在极越的智驾系统则具备如此能力，能够预判运动物体的移动轨迹。

第三点能力的进化和百度地图有关，车辆在形式过程中也会实时收集道路信息，用不断建图的方式来不断补充道路数据，还能持续地保持自我训练。最终在体验上，可以做到只要百度地图覆盖就能使用PPA辅助驾驶，不分高速城区，这也是PPA技术“全国都能开”的重要基础之一。

最后一点是系统本身对场景理解、场景决策能力的提升，可以分成两个细分点。场景理解是指，PPA系统通过分析能够判断道路交通参与者所处的状态还有行为模式，判断为横穿马路的就要让行，违停的就该绕行。

决策能力主要体现在道路博弈上，比如汇入汇出、应对加塞等场景的处理更接近老司机。这些能力背后离不开大模型的支持，极越提到了“智驾数据生产线”的概念，用各种方式采集而来的道路数据会交由大模型进行处理，或是提高精度或是进行清洗，最终这些高品质的数据能够很好地帮助智驾系统了解、学习真实世界的交通运作模式，且懂得如何反应。

实际上借助AI的能力来训练AI这种生产模式并非极越首创，但如此积极应用AI大模型的恐怕就极越一家：一方面是百度技术体系带来的思维方式，另一方面也是强大的算力基建支持——三大数据中心拥有2.2EFLOPS的GPU算力、30PB的缓存数据，相信这些支持才是极越的底气所在。

底层能力的提升

可以明确一点，百度地图是PPA智驾系统的能力基础，其中一个很重要的贡献是LD地图（车道级导航地图），一方面能够满足智驾需求，另一方面又不需要高精地图那样的重资产投入。

官方介绍，LD地图的来源不像高精地图那样需要采集车全程采集，而是借助ViT技术由自动驾驶的视觉感知大模型生成而来。百度强调，LD地图是“因自动驾驶视觉感知大模型而生”，它很好地解决了当下智驾系统过度依赖高精地图的问题，进一步拓宽的智驾的应用范围。

而反过来的，LD地图的出现也为百度地图带来了不分道路的车道级导航功能，最终达到了“百度地图能用车道级导航，极越就能使用PPA”这样一石二鸟的结果。

往长远地说，极越和百度地图之间的合作还会出现“滚雪球”效应，9000万的百度地图用户源源不断地为极越提供道路数据，而极越用户行驶得越多，就越能帮助百度地图形成道路建模，完成数据的闭环。

在安全性能上，百度地图的道路交通信息也能为极越智驾“开天眼”，实际上这也是一种更轻量化的“车路协同”智驾模式。

我们知道百度是国内为数不多开展L4 Robotaxi运营的企业之一，而且主要的方案就是“车路协同”，不过和L4场景相比L2+始终要轻量级一些，所以不需要道路传感器的参与，光靠地图信息就足以让极越PPA智驾灵活应对。

语音识别脱胎换骨

介绍完了智驾的动态后智能座舱也不能缺席，这一次的AI Day重点讲了他们是如何提升语音助手能力的。

最重要的是核心战略，极越做语音助手和其他品牌最大的不同在于将算力资源部署到了端侧而非云端，由此规避了传统语音助手可能出现的网络不稳、速度慢、算力有限和隐私风险四大问题。

然而想要将语音助手完全部署在端侧我们也知道最大的瓶颈来自于算力，尤其是CPU算力根本无法胜任复杂的自然语言处理工作，所以通过算法和技术逻辑手段降低端侧算力压力非常重要。

极越这里的做法首先是充分调用NPU算力，让整个语音交互系统都交由NPU处理，借助大模型强悍的计算能力解决传统机器计算做不到的事情，规避了CPU算力不足的问题。其次是算法的创新，百度应用了完全独立研发的SMALT2技术，将多语种、多方言和多场景的数据统一建模，一次处理，进而提升端侧的语音识别率。

百度介绍，基于这些技术的提升能够让整体交互的耗时缩短到700毫秒以内，而语音识别的耗时仅为500毫秒。

极越语音能力的领先还体现在多模态的整合，简单来说就是系统能够结合嘴唇运动、实拍画面等多个信息对音频进行处理，哪怕收音环境七嘴八舌、充满各种噪声，系统也能准确理解目标音频。

极越提到，目前只有极越能做多模态整合交互方案，最核心的因素在于隐私保护。因为涉及画面，如果数据交由云端处理百分百会有隐私风险，然而极越将计算资源部署在端侧，所以能够规避隐私风险，实现多模态交互。

极越01极越想的是进一步提升纯视觉方案OCC技术的能力

最新资讯