日均消耗 Token 58.8 万亿,小鹏第二代 VLA 把智驾大战带入新阶段
日均消耗 Token 58.8 万亿,小鹏第二代 VLA 把智驾大战带入新阶段
  • 2026-03-19 02:48:53
    来源:谛分审布网

    日均消耗 Token 58.8 万亿,小鹏第二代 VLA 把智驾大战带入新阶段

    字体:

    辅助驾驶的终局之战已打响。

    作者|周永亮

    编辑|靖宇

    2026 年 3 月 16 日,小鹏汽车举办了一次非常规的活动。这次没有新车,没有宏大的舞台,何小鹏和刘先明参与了一场「Ask Me Anything」直播。

    这场直播的核心,是小鹏第二代 VLA 推送前的答疑解惑。何小鹏在两个小时的直播里,主要就是传递了一个信息:那个靠堆砌规则的「旧时代」已经成为过去,取而代之的是一个真正会思考,还能和物理世界互动的 AI 大模型。

    这不是又一次 OTA,而是小鹏的一次「自我革命」。用通用智能中心负责人刘先明的话说,就是「杀死自己,回炉重造」。这背后,是一场耗资 20 多亿、每月「烧掉」3 个亿的豪赌,赌的就是与过去十年辅助驾驶「规则时代」的彻底告别。

    当小鹏决定「杀死」那个曾经的自己时,它到底在思考什么?这又将如何定义辅助驾驶的下半场?

    01

    辅助驾驶的终点,是一杯「白开水」?

    何小鹏用一个关于「妈妈」的故事,试图为这场有点冰冷的技术变革,加入一些人情味。

    他在直播中说,过去带妈妈体验辅助驾驶,突如其来的急刹和莫名其妙的卡死,让家人心理总是充满顾虑。这触及了一个核心问题:辅助驾驶发展了这么多年,为什么依然是「极客的玩具」,而没有真正进入大众生活?

    答案藏在技术范式里。

    在过去近 10 年的时间里,传统辅助驾驶被划分为感知、预测、规划、控制四个独立模块,工程师们有点像保姆,为每个模块写了成千上万条的规则,比如遇见红灯就停,遇到实线则不变道。这套逻辑在高速路上还可以,解决了「从无到有」的问题。

    但当汽车驶入一个更真实混乱的环境,比如没有车道线的乡间土路,人车混杂的城中村,这种模式的「天花板」就显现了。

    系统会因为没法匹配规则显得「不知所措」,或者面对突然窜出的外卖小哥突然来一脚「重刹」。缺少人类司机那种基于常识的「直觉」,也读不懂交警手势里的复杂指令。

    这就是用户焦虑的根源:不安心、能力有边界、效率低下,同时在不同场景,能力表现不一致。

    「好的智驾就像白开水,让人感觉不到它的存在。」刘先明用这个比喻,说出了新范式的核心。

    小鹏的答案是第二代 VLA,它是一个原生的物理世界大模型。它不再需要高精地图,也不再依赖人工规则,而是像一个真正的人类司机,用「眼睛」去看,用「大脑」去思考和推理,最后做出行动。

    一个传播很广的「14 秒停顿」视频,被小鹏用来诠释这种新能力。面对导航上不存在的封锁路段,车辆没有「认怂」降级,而是静静思考,开始推演不同路径的利弊,最终自己找到了出路。小鹏将这些定义为规则代码难以实现的「智能涌现」。

    02

    烧掉 20 亿,小鹏在赌什么?

    如果说特斯拉 FSD 是全球智能驾驶的标杆,那么小鹏第二代 VLA 则被认为是「更懂中国的 FSD」。

    以前的辅助驾驶是「拼凑」出来的。摄像头看到红灯,要先把图像翻译成代码(语言),代码再告诉底盘刹车。这一来一回,就像我们学英语,还得先在脑子里中译英,反应慢,还生硬。

    而小鹏这次发布的第二代 VLA,直接去掉了中间的「翻译」环节。它用一种极其暴力的效率重构了底层逻辑。眼睛看到的(Vision),直接变成了动作(Action)。

    在小鹏看来,辅助驾驶问题本质上是 AI 问题。其能力可以用一个公式概括:能力=模型×算力×数据×本体。

    第二代 VLA 的核心,是一个参数高达 720 亿的基座模型。以前车企训练智驾,是喂给它几百万公里的视频,让它模仿。但现在,小鹏是直接造了一个「物理世界大模型」。

    在这个基座世界里,有重力,有摩擦力,有光影变化。模型不仅知道「前面有车」,它还具备了长思维链推理能力(CoT)。它能理解:路面有积水,会导致轮胎抓地力会变差,然后刹车距离要变长。它开始懂物理规律了。

    为了训练这个庞大的模型,小鹏建成了由 3 万张 AI 芯片组成的算力集群,高峰期「每个月要投入 3 个亿」。

    在车端,自研的图灵 AI 芯片与模型、编译器联合优化,将推理延时从通用芯片的 800ms 大幅降低至 80ms。同时,「一颗图灵芯片的有效算力,约等于 10 颗 Orin-X。」这种软硬件一体的垂直整合,最大化了「有效算力」,让复杂的模型得以在车上实时运行。

    如果说算力是引擎,数据就是燃料。小鹏抛出了一个颇为夸张的数字:以 2 月 16 日到 22 日这周为例,中国大模型的周调用量进一步冲高至 5.16 万亿 Token,平均每天 0.7 万亿 Token。小鹏第二代 VLA 的 日均 Token 调用量会达到惊人的 58.8 万亿,是全国人民调用数字 AI 的 80 倍。 这样的信息密度「喂养」着 VLA 模型,让它在学习中成长。

    同时,一个每日可模拟 3000 万公里的仿真系统,不断创造出各种极端场景,让 AI 在虚拟世界中磨炼自己。

    这使得小鹏建成了「云端模型工厂」,实现了每五天一次的全链路模型迭代。自 2025 年科技日以来的 130 天,小鹏已开发了超过 400 个版本的模型。它确保了 AI 的进化不是以年、而是以天为单位。

    03

    从喀什到上海,5000 公里的路考

    不管宣传技术如何先进,最终还是需要现实的检验。

    在第二代 VLA 推送前夕,有媒体正在进行一场「5000 公里智驾横穿中国」的极限挑战,来实测第二代 VLA 的全场景泛化能力。

    从新疆喀什到上海,这条路线几乎涵盖了中国所有复杂路况:高速、国道、城市、乡村土路,以及沙尘暴、大雪、横风等极端天气。

    挑战首日,小鹏 G7 完成超过 1000 公里行程,在复杂路况与极端天气条件交织的情况下,实现了全程「零接管」。相比依赖固定规则的传统系统,第二代 VLA 通过更接近人类驾驶逻辑的方式理解道路环境与交通行为,从而提升在复杂场景中的应对能力。

    这背后,第二代 VLA 学习的是物理世界的底层规律,而非特定城市的交通规则,所以无论身处何地,它都能像人一样「有路就能开」。

    更贴近用户的感受,是「情绪稳定指数」的提升。据小鹏内部测试,在同等复杂路况下,第二代 VLA 在整体综合体验上提升近 5 倍。这意味着更少的急刹、犹豫,还有更少的「惊吓式接管」。

    这正是「妈妈们都爱用」的底层逻辑:安全是底线,而丝滑、从容、可预期的体验,才是建立信任的关键。

    据了解,从 3 月 19 日起,小鹏将逐步为 P7 Ultra、G7 和 X9 Ultra 等车型的用户推送第二代 VLA。何小鹏承诺,量产推送的版本体验将「甚至更稳定、更一致」。而面向更广大的 Max 车主,能力对标行业顶尖 L2 的「蒸馏版」也将在下半年到来。

    04

    下一个十年:汽车,将成为「超级智能体」

    如果说 VLA 解决了「车」的辅助驾驶问题,那么小鹏的野心,显然不止于此。

    今年年初,小鹏进行了一次关键的组织变革:将智能座舱中心与自动驾驶中心合并,成立「通用智能中心」,由刘先明统一负责。

    这一举动,背后是一条逐渐清晰的技术趋势,舱驾融合。它开始让汽车成为一个完整的「超级智能体」。

    想象一下,当你对车说「我有点累,想在前面那个看起来不错的咖啡馆停一下」,系统不仅能理解你的模糊意图,还能通过 VLA 的视觉能力识别出哪家咖啡馆「看起来不错」,并规划路径停到车位。

    这也是何小鹏所说的,「上一个 10 年是新能源的时代,下一个 10 年是智能经济体的时代。现在忽视智能体+汽车,恰似 10 年前错过新能源浪潮。」

    这个统一的物理 AI 技术底座,也将同步支撑小鹏的 Robotaxi、飞行汽车、甚至人形机器人业务。从这个角度看,第二代 VLA 的发布,不仅仅是一款辅助驾驶产品的升级,更是小鹏为未来十年走向「物理 AI 世界」的基础。

    据了解,目前海内外已经有多家车企在接触第二代 VLA,何小鹏坦言对全球泛化性和鲁棒性有信心。

    中国公司在物理 AI 这个赛道上,已经悄然逼近并开始超车。

    *头图来源:「Ask Me Anything」——小鹏汽车第二代 VLA「开启推送」前直播

    本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

    极客一问

    你认为车企未来会成为

    Token 消耗最大的公司吗?

    【纠错】【责任编辑:朝8晚12】