仰望U8这些芯片均是云端数据中心的主流加速卡（GPGPU）

作者：HiEV大蒜粒

时间：2023-07-12

【易车摘要频道】下列精选内容摘自于《HiEV洞察 | AI芯片禁令下，本土智驾承压能力全解析》的片段：

上一轮禁令出台于去年9月。当时美国商务部发布了对华半导体出口限制新规，以英伟达A100为基线，要求限制超过基线性能的AI芯片对华出口，英伟达A100/H100和AMD公司的MI100/MI200等大算力GPU芯片均在限制范围内，这些芯片均是云端数据中心的主流加速卡（GPGPU）。

为了减少业务冲击，英伟达迅速调整产品策略，相继推出了 A800和H800两款中国特供版芯片，以满足合规要求。虽然两款芯片的纸面算力与A100/H100无异，但互联带宽只有后者的一半，意味着集群后的算力规模会受制于卡间互联的带宽。

英伟达A100芯片来源：官网

自去年底以来，以 ChatGPT为代表的AIGC大模型赛道突然崛起，导致高性能GPU芯片需求暴涨。

产业界普遍认为，大模型是继智能驾驶之后又一个具有广阔市场前景的科技主赛道，中美两国都在积极布局抢占先机。在此背景下，美国可能意识到此前的芯片禁令力度不够，需要追加新禁令，核心是帮助美国公司在核心AI赛道对中国公司保持绝对领先地位。

AI芯片不仅是大模型的基石，也是推动智能驾驶落地和进化的核心“生产力工具”，潜在新禁令将对智能驾驶产业产生哪些影响，是智驾从业者需要认真评估的课题。

更令人担心的是，如果禁令继续加码，AI芯片限制范围不断扩大，将对智能驾驶行业产生哪些新的冲击。在回答这两个问题之前，需要对AI芯片类别及其智驾应用场景做一些基础梳理。

二、AI芯片分类：云端与边缘、训练与推理

AI芯片也被称为AI加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块（其他非计算任务通常由CPU负责）。

AI芯片产品种类繁多，通常有三大分类维度： 应用场景、部署位置以及芯片架构。

应用场景：分为训练（Training）和推理（Inference）。

训练芯片是用于构建AI神经网络模型的高性能算力芯片，主打高并行数据吞吐率和低功耗；

而推理芯片，则是利用已训练完成的AI模型进行推理预测，基于输入数据输出推测结果，侧重低延迟和低功耗，对算力要求偏低。

部署位置：分为云端（数据中心）和边缘端。

云端数据中心具有强大的计算能力和海量的数据，承担模型训练以及推理任务（例如目前爆火的AIGC大模型），对AI芯片要求是高性能和高吞吐量，数据中心是目前高性能计算AI芯片核心应用场景；

边缘端则使用训练好的模型进行直接推理，更加注重实时性和低功耗，主要应用场景包括机器人、智能驾驶、手机、物联网设备等。

芯片架构：分为GPU（一般特指GPGPU）、ASIC和FPGA。

GPU 作为最早从事并行加速计算的处理器，具有高并行结构，在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。

ASIC是一种面向特定应用场景的专有AI芯片，通过算法固化实现极致的性能和能效，平均性能强、功耗低和性价比高，但前期投入大、研发时间较长。

FPGA是一种半定制化芯片，在制造完成后仍然可以对芯片进行灵活软件功能配置，以满足用户独特需求，具有可编程性、高并行性、低延迟和低功耗等特点，在云端和边缘端的推理领域具有很高的应用潜力。

三、AI芯片在智能驾驶中的应用

GPU作为通用大算力芯片一般应用于 智驾数据中心，赋能智能驾驶神经网络训练，包括数据自动标注、环境感知、多模态融合以及规划控制等各个环节。

随着智驾渗透率的提升，车端采集并上传到云端的各类信息数据量快速上升，亟需具有大规模AI处理能力的数据中心支撑。

去年10月的Tesla AI Day曾透露其超算中心拥有14000个GPU, 共30PB的数据缓存,每天有500000个新的视频流入。

比亚迪也特别注重云端海量数据采集，目前已经积累了150PB以上的数据，并且每天新增1PB数据，这些数据被用于下游的训练任务，而且预计今年还会累计有6亿公里的数据，并在未来几年通过研采车辆以及量产车队实现指数级的数据储备，以解决智驾的长尾问题。

目前 国内多家OEM和Tier 1均在积极建设智驾数据中心。

蔚来2022年就曾宣布与英伟达合作，基于A100打造自己的数据中心；
小鹏汽车与阿里云合作在乌兰察布建设了智算中心“扶摇”，宣称云端算力可达600 PFLOPS；
毫末智行发布了和火山引擎合作的“雪湖·绿洲”智算中心，称其算力规模为670 PFLOPS；
理想汽车同样宣布了与火山引擎合作在山西打造智算中心，采购的公有云服务算力达750P FLOPS；
吉利汽车则和阿里云在湖州成立了星睿智算中心，拥有810 PFLOPS（F的算力。

上述智驾数据中心的核心AI芯片基本都是基于 GPGPU（以英伟达A100/A800为主）。

行业标杆Tesla的规划则有所不同，Tesla正在基于其自研的ASIC训练芯片D1来打造专属的Dojo超级计算机，每个训练模块将由25个D1芯片组成，计算能力将达到每秒9千万亿次（9PFLOPS），数据带宽可达36TB/s，基本上实现了算力密度和数据吞吐能力的最大化。

Dojo超级计算机

ASIC作为专用大算力AI芯片，虽然被Tesla选择用于构建数据中心，但其核心场景仍是车载边缘推理端—域控制器。目前域控制器中大量使用ASIC AI芯片，提供大算力高能效比的推理能力。

车端智能驾驶的实现需要依靠激光雷达、毫米波、摄像头等多种传感器对道路信息进行感知，将感知数据上传到域控制器进行综合处理，以识别各类动静态道路参与者、道路结构化信息和可行驶区域，控制车辆以规划好的路径进行自主行驶。

整个过程对数据处理的要求非常高，不仅需要应对海量的环境实时信息，还要在极低时延和较低功耗下进行，时延事关行车安全，功耗则会影响续航，同时域控平台的成本需匹配车辆售价，芯片成本约束较大。这些因素导致GPGPU无法部署在车端，只能使用专有ASIC AI芯片。

面向域控制器的ASIC AI芯片中属英伟达布局最早，生态打造也最为全面和成熟。目前其车载端量产芯片包括Xavier、Orin X。

其中 Orin X是目前最具代表性的域控主流芯片，于2022年量产，OrinX SoC包含170亿晶体管，提供254TOPS（INT8）性能，基于7nm的制程工艺，功耗仅为50W，凭借英伟达CUDA出色的生态支持，Orin X在过去一段时间成为众多国内车企的首选。

英伟达已经官宣了下一代车载自动驾驶芯片平台Thor，算力达到恐怖的 2000TOPS（INT8），预计2024年量产。

另外国外如高通、Mobileye也提供大算力车载AI芯片，但量产时间偏晚。

英伟达Orin X芯片

地平线J5芯片

国产域控制器AI芯片这几年发展也非常迅速，成果喜人，代表公司有 地平线、黑芝麻智能等。

其中地平线产品商业化进展颇为迅速，其明星产品J5采用台积电16nm工艺，单芯片算力128TOPS（INT8）、35W功耗、支持16+路摄像头，是目前量产产品中性能仅次于英伟达的智能驾驶域控芯片平台。

黑芝麻智能则主打华山系列AI芯片家族，包括A1000、A1000L和A1000 Pro，提供不同的算力等级匹配各类用户需求，针对L3及以上，正在开发目标算力为250+TOPS的A2000，黑芝麻智能近期已经向港股提交了上市申请。

（*为官方未公布，仅推测）

FPGA在智驾领域有两重应用身份。

第一重应用是作为AI芯片起加速硬件的作用，面向推理阶段，FPGA相比GPU具有低延迟、高并发的优势，但是智驾云端的实时性要求并不高，更多是离线处理，所以FPGA的独特价值并不明显，这和IT公司的实时推理系统并不一样。

而在车载域控制器（边缘推理）领域，FPGA高性能推理加速优势较为明显，针对不同的量产车型项目配置灵活。

仰望U8这些芯片均是云端数据中心的主流加速卡（GPGPU）

最新资讯