国内各厂商们迅速形成共识的重要原因,是特斯拉率先交出了一份让人羡慕的端到端答卷。今年 3 月,特斯拉正式推送了智能驾驶软件 FSD V12.3 版本。这个版本的最大改变,就是把整个智驾系统工作的动力,从人类编写的代码,切换成了基于神经网络的 AI 大模型。马斯克用「Video in to Control out」来形容这种新的工作范式,即:AI 根据自己「看」到的路面信息,直接输出驾驶操作,也就是业界常说的「端到端」(End-to-End)。上个月,何小鹏在加州体验了 FSD V12.3.6 版本。用他的话来说,FSD「很多路况处理都很丝滑」。这正是 AI 神经网络相比于代码驱动的最大优势所在:在不同城市、不同路况下,大幅提高智驾系统的泛化学习能力。翻译成国内消费者们更熟悉的广告营销话术就是:全国(全球)都能开。华为在去年 9 月喊出「全国都能开」的宣传语 | 来源:极客公园当然,这个结论在现阶段还只是一个美好的心愿。在实际操作过程中,还需要数据、算法、算力等 AI 基础设施的全力加持和训练,才可能接近「AI 变得和人类驾驶员一样聪明」这个目标。但对于同行们来说,FSD V12 版本意义重大。它验证了神经网络真的可以取代人类编写的代码,甚至可以做得更好更高效。这意味着不用再等 N 年,智能驾驶行业里的 ChatGPT 时刻其实已经到来了。想想阿里张勇曾经说过的那句话:所有软件都值得用 AI 重做一遍。FSD V12 正是给了同行一个新的方向和信心:所有智驾的技术栈,都可以用端到端重做一遍。在 FSD V12 beta 版本发布的时候,马斯克说过,这一版本把前一版本的 30 万行代码压缩到了 2000 行,相当于不到百分之一的水平。新技术栈里的智驾比拼,不会演变为比谁人更多的反创新内卷游戏。如果 AI 的效率真能达到何小鹏所说的两天一次内部 OTA,那逐条写规则、改 bug 的人海战术就可以宣布彻底过时。所以智驾行业还需要那么多程序员吗?笔者无法给出准确的答案,但可以肯定的是,智驾程序员的工作内容也将发生一系列改变。只会写 if else 规则的程序员,大概率会早于出租车、网约车司机们被 AI 取代。
02
困在数据里
在投资机构辰韬资本上个月发布的《端到端自动驾驶行业研究报告》中,30 余位自动驾驶行业受访者,只有 13% 表示对端到端技术持相对谨慎的「观望」态度,其余均表达了更积极的「预研」甚至「全力投入」的态度。端到端已经在行业从业者里成为了共识。但事实上,目前还没有任何一家企业(包括特斯拉在内),可以做到「原教旨主义端到端」。也就是把自动驾驶的所有环节都集中在同一个大的模型里,真正达到和人类一样的「输入视觉信号,输出踏板和方向盘操作」。大部分国内主机厂现阶段所做的核心努力,是打通感知和决策模块。这其中的关键,就是取消模块之间的人工定义结果,更多用特征向量传递无损信息。端到端自动驾驶的架构演进示意图 | 图片来源:辰韬资本在端到端之前,传统自动驾驶架构来源于机器人领域,分为感知、规划、控制等不同模块。不同模块由不同团队开发,在模块与模块之间,主要通过人工定义的接口传递信息。举个最简单的例子,对于车辆是否压线行驶这个现象,在传统感知模块里就可以用最简单的计算机二进制语言进行表征。而打通感知和决策模块的最大好处,就是可以涵盖更多现实世界中规则无法准确描述的「灰度场景」。例如,当你开车时,并不需要知道前车精确的行驶速度,或者它是否压线,只需要关注相对位置变化就好。在这个基础上,基于生成式 AI 的理论,期待神经网络模型也能在大量输入后产生智能涌现,成为 AI 智能体。这一切的基础都来源数据,也就是「喂」给模型的训练素材。但是,和基于文字的语言大模型不同,智驾模型并不容易找到足够的公开视频数据作为训练素材。前述《端到端自动驾驶行业研究报告》显示,目前规模最大的公开数据集只有 1200 小时数据。而根据马斯克 2023 年的说法,特斯拉在端到端的初期,就投入了近 4 万小时的视频进行训练。相比其他车企,特斯拉数据的优势主要就在于量产车多。目前,特斯拉在全球共交付了超过 600 万辆汽车,而在中国积极布局智驾的新势力里,量产车的数量只是特斯拉的零头。再加上一贯的极简 SKU 和全量预埋的智驾硬件,让数据收集变得更加容易。国内此前的常规做法,通常是依靠人工获取道路信息。但是,要训练出一个聪明的端到端模型,也需要尽量涵盖足够多边缘场景(conner case)的数据。由于边缘场景的出现非常随机,有厂商曾经表示,仅靠人工数据采集,只能得到大约 2% 的有限数据。此外,和特斯拉相比,国内厂商往往有着更复杂的 SKU。而不同车型之间,由于车辆尺寸、传感器布局等不同,模型中的相关参数也需要重新进行对齐。以华为系为例,鸿蒙智行过去一年多的时间里展现出了极强的终端销售能力,但对于华为车 BU 服务的不同品牌、不同型号的车型来说,端到端落地后仍然需要工程师进行对齐和交付工作。对于有 2 个品牌 9 款车型的蔚来来说,同样如此,他们把集成团队重组到了交付团队中。在 Sora 发布后,马斯克发推表示特斯拉用 AI 模拟真实世界驾驶 | 图片来源:X 截图有一种观点是,以 Sora 为代表的文生视频类产品有可能成为端到端模型的素材来源。但哪怕对马斯克来说,用 AI 生成的内容训练 AI,也还没有得到公开认可。毕竟数据的数据对于模型训练太重要了。要知道,一向对人力成本极致「抠门」的马斯克,当年也在纽约雇了 1000 人团队,来为特斯拉的道路视频数据进行标注。