按照极越的说法,目前极越01已经深度融合文心一言、Apollo、百度地图、小度等技术能力。极越01创造了全球范围内率先实现AI大模型“上车”、国内唯一/全球唯二的纯视觉高阶智驾、首个OCC占用网络升级、首个AI语音算法全量本地化等诸多行业领先。
不过从目前看,这些功能似乎并没有让极越01的产品体验跟别的新势力有什么明显区别。当然从极越的角度来说,接下来的两年时间,就是体现出百度AI大模型能力的时候,第一梯队和第二梯队的能力差距会逐渐加大。
在高阶智驾方面,百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮发布了百度Apollo自动驾驶视觉大模型VTA(Vision Takes All) Net预训练感知基础大模型,大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力,再度提升极越纯视觉高阶智驾能力上限。
VTA大模型的核心则是用AI原生思维重构自动驾驶技术,基于纯视觉带来的海量信息(8MP摄像头的采样比是激光雷达的160倍-20倍左右),通过自监督训练和通用视觉任务学习两个步骤,让模型掌握通用泛化的学习能力。
百度定义了这套基础模型拥有四大基础能力:目标检测、实时建图、时序跟踪、场景理解。然后百度再对这四个特点任务的实现,在基础模型之上添加了任务头,在这个过程中进行深耕,从而解决这个领域中最困难的问题。
VTA网络基础大模型可以使得极越01推送的V 1.4.0版本的OCC模型新增1亿帧数据,72%的早鸟用户感受避障能力的大幅度提升。
同时,在新的AI模型训练下,视觉OCC占用网络的“检测”能力也大幅提升,可以实现三种不同前向视距下的场景检测、效率更高,也就是行泊全场景模型。
值得一提的是,百度对三种场景的取名也很贴切:高速远视场景叫“RIFLE(狙击步枪)”、城区场景叫“PISTOL(手枪)”、停车场泊车场景叫“DAGGER(匕首)”,分别可以识别0.4米、0.1米和0.05米尺寸的物体。