日均消耗 Token 58.8 万亿，小鹏第二代 VLA 把智驾大战带入新阶段

辅助驾驶的终局之战已打响。

作者｜周永亮

编辑｜靖宇

2026 年 3 月 16 日，小鹏汽车举办了一次非常规的活动。这次没有新车，没有宏大的舞台，何小鹏和刘先明参与了一场「Ask Me Anything」直播。

这场直播的核心，是小鹏第二代 VLA 推送前的答疑解惑。何小鹏在两个小时的直播里，主要就是传递了一个信息：那个靠堆砌规则的「旧时代」已经成为过去，取而代之的是一个真正会思考，还能和物理世界互动的 AI 大模型。

这不是又一次 OTA，而是小鹏的一次「自我革命」。用通用智能中心负责人刘先明的话说，就是「杀死自己，回炉重造」。这背后，是一场耗资 20 多亿、每月「烧掉」3 个亿的豪赌，赌的就是与过去十年辅助驾驶「规则时代」的彻底告别。

当小鹏决定「杀死」那个曾经的自己时，它到底在思考什么？这又将如何定义辅助驾驶的下半场？

辅助驾驶的终点，是一杯「白开水」？

何小鹏用一个关于「妈妈」的故事，试图为这场有点冰冷的技术变革，加入一些人情味。

他在直播中说，过去带妈妈体验辅助驾驶，突如其来的急刹和莫名其妙的卡死，让家人心理总是充满顾虑。这触及了一个核心问题：辅助驾驶发展了这么多年，为什么依然是「极客的玩具」，而没有真正进入大众生活？

答案藏在技术范式里。

在过去近 10 年的时间里，传统辅助驾驶被划分为感知、预测、规划、控制四个独立模块，工程师们有点像保姆，为每个模块写了成千上万条的规则，比如遇见红灯就停，遇到实线则不变道。这套逻辑在高速路上还可以，解决了「从无到有」的问题。

但当汽车驶入一个更真实混乱的环境，比如没有车道线的乡间土路，人车混杂的城中村，这种模式的「天花板」就显现了。

系统会因为没法匹配规则显得「不知所措」，或者面对突然窜出的外卖小哥突然来一脚「重刹」。缺少人类司机那种基于常识的「直觉」，也读不懂交警手势里的复杂指令。

这就是用户焦虑的根源：不安心、能力有边界、效率低下，同时在不同场景，能力表现不一致。

「好的智驾就像白开水，让人感觉不到它的存在。」刘先明用这个比喻，说出了新范式的核心。

小鹏的答案是第二代 VLA，它是一个原生的物理世界大模型。它不再需要高精地图，也不再依赖人工规则，而是像一个真正的人类司机，用「眼睛」去看，用「大脑」去思考和推理，最后做出行动。

一个传播很广的「14 秒停顿」视频，被小鹏用来诠释这种新能力。面对导航上不存在的封锁路段，车辆没有「认怂」降级，而是静静思考，开始推演不同路径的利弊，最终自己找到了出路。小鹏将这些定义为规则代码难以实现的「智能涌现」。

烧掉 20 亿，小鹏在赌什么？

如果说特斯拉 FSD 是全球智能驾驶的标杆，那么小鹏第二代 VLA 则被认为是「更懂中国的 FSD」。

以前的辅助驾驶是「拼凑」出来的。摄像头看到红灯，要先把图像翻译成代码（语言），代码再告诉底盘刹车。这一来一回，就像我们学英语，还得先在脑子里中译英，反应慢，还生硬。

而小鹏这次发布的第二代 VLA，直接去掉了中间的「翻译」环节。它用一种极其暴力的效率重构了底层逻辑。眼睛看到的（Vision），直接变成了动作（Action）。

在小鹏看来，辅助驾驶问题本质上是 AI 问题。其能力可以用一个公式概括：能力=模型×算力×数据×本体。

第二代 VLA 的核心，是一个参数高达 720 亿的基座模型。以前车企训练智驾，是喂给它几百万公里的视频，让它模仿。但现在，小鹏是直接造了一个「物理世界大模型」。

在这个基座世界里，有重力，有摩擦力，有光影变化。模型不仅知道「前面有车」，它还具备了长思维链推理能力（CoT）。它能理解：路面有积水，会导致轮胎抓地力会变差，然后刹车距离要变长。它开始懂物理规律了。

为了训练这个庞大的模型，小鹏建成了由 3 万张 AI 芯片组成的算力集群，高峰期「每个月要投入 3 个亿」。

在车端，自研的图灵 AI 芯片与模型、编译器联合优化，将推理延时从通用芯片的 800ms 大幅降低至 80ms。同时，「一颗图灵芯片的有效算力，约等于 10 颗 Orin-X。」这种软硬件一体的垂直整合，最大化了「有效算力」，让复杂的模型得以在车上实时运行。

如果说算力是引擎，数据就是燃料。小鹏抛出了一个颇为夸张的数字：以 2 月 16 日到 22 日这周为例，中国大模型的周调用量进一步冲高至 5.16 万亿 Token，平均每天 0.7 万亿 Token。小鹏第二代 VLA 的日均 Token 调用量会达到惊人的 58.8 万亿，是全国人民调用数字 AI 的 80 倍。这样的信息密度「喂养」着 VLA 模型，让它在学习中成长。

同时，一个每日可模拟 3000 万公里的仿真系统，不断创造出各种极端场景，让 AI 在虚拟世界中磨炼自己。

这使得小鹏建成了「云端模型工厂」，实现了每五天一次的全链路模型迭代。自 2025 年科技日以来的 130 天，小鹏已开发了超过 400 个版本的模型。它确保了 AI 的进化不是以年、而是以天为单位。

从喀什到上海，5000 公里的路考

不管宣传技术如何先进，最终还是需要现实的检验。

在第二代 VLA 推送前夕，有媒体正在进行一场「5000 公里智驾横穿中国」的极限挑战，来实测第二代 VLA 的全场景泛化能力。

从新疆喀什到上海，这条路线几乎涵盖了中国所有复杂路况：高速、国道、城市、乡村土路，以及沙尘暴、大雪、横风等极端天气。

挑战首日，小鹏 G7 完成超过 1000 公里行程，在复杂路况与极端天气条件交织的情况下，实现了全程「零接管」。相比依赖固定规则的传统系统，第二代 VLA 通过更接近人类驾驶逻辑的方式理解道路环境与交通行为，从而提升在复杂场景中的应对能力。

这背后，第二代 VLA 学习的是物理世界的底层规律，而非特定城市的交通规则，所以无论身处何地，它都能像人一样「有路就能开」。

更贴近用户的感受，是「情绪稳定指数」的提升。据小鹏内部测试，在同等复杂路况下，第二代 VLA 在整体综合体验上提升近 5 倍。这意味着更少的急刹、犹豫，还有更少的「惊吓式接管」。

这正是「妈妈们都爱用」的底层逻辑：安全是底线，而丝滑、从容、可预期的体验，才是建立信任的关键。

据了解，从 3 月 19 日起，小鹏将逐步为 P7 Ultra、G7 和 X9 Ultra 等车型的用户推送第二代 VLA。何小鹏承诺，量产推送的版本体验将「甚至更稳定、更一致」。而面向更广大的 Max 车主，能力对标行业顶尖 L2 的「蒸馏版」也将在下半年到来。

下一个十年：汽车，将成为「超级智能体」

如果说 VLA 解决了「车」的辅助驾驶问题，那么小鹏的野心，显然不止于此。

今年年初，小鹏进行了一次关键的组织变革：将智能座舱中心与自动驾驶中心合并，成立「通用智能中心」，由刘先明统一负责。

这一举动，背后是一条逐渐清晰的技术趋势，舱驾融合。它开始让汽车成为一个完整的「超级智能体」。

想象一下，当你对车说「我有点累，想在前面那个看起来不错的咖啡馆停一下」，系统不仅能理解你的模糊意图，还能通过 VLA 的视觉能力识别出哪家咖啡馆「看起来不错」，并规划路径停到车位。

这也是何小鹏所说的，「上一个 10 年是新能源的时代，下一个 10 年是智能经济体的时代。现在忽视智能体+汽车，恰似 10 年前错过新能源浪潮。」

这个统一的物理 AI 技术底座，也将同步支撑小鹏的 Robotaxi、飞行汽车、甚至人形机器人业务。从这个角度看，第二代 VLA 的发布，不仅仅是一款辅助驾驶产品的升级，更是小鹏为未来十年走向「物理 AI 世界」的基础。

据了解，目前海内外已经有多家车企在接触第二代 VLA，何小鹏坦言对全球泛化性和鲁棒性有信心。

中国公司在物理 AI 这个赛道上，已经悄然逼近并开始超车。

*头图来源：「Ask Me Anything」——小鹏汽车第二代 VLA「开启推送」前直播

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你认为车企未来会成为

Token 消耗最大的公司吗？

【纠错】【责任编辑:朝8晚12】

深度观察

新华全媒头条丨中国驻马来西亚使馆举办2026年春节暖心包发放活动启动仪式