为什么理想小鹏元戎的下一代辅助驾驶大模型，都选了VLA？ |科技 |Thor |下一代 |元戎 |理想 |功能

作者 |️德新

编辑 |️王博

尽管在2025年上半年辅助驾驶行业经历了一番风波，但到了下半年，在技术上头部公司的辅助驾驶系统明显地要开始迈入下一阶段。

理想、小鹏、元戎这些玩家们都霍霍欲试，以VLA为代表基于新一代模型的辅助驾驶系统呼之欲出。

理想已经在一季度的财报会上预告：7月理想将发布纯电SUV i8，并同步推出基于VLA模型的辅助驾驶系统。️i8将是理想继MEGA之后在纯电上的关键一战，理想的前期宣传将不少的卖点都寄托在了新的辅助驾驶上。

小鹏也在6月11日刚刚揭幕了全新的G7，G7首发了自研的图灵芯片，并且一次就搭载3颗，拥有超过2200 Tops的算力。基于这个级别的算力，小鹏正在云端训练超大规模的VLA模型，称之为VLA-OL（Online Reenforcement Learning）；接下来，️小鹏将通过蒸馏的方式将VLA部署到车端。

除了新势力自研的阵营，传统厂商一侧其对VLA技术也有强烈的兴趣。供应商中，元戎启行可能是对VLA推进得最早、最快的一家公司，其在去年6月份第一次对外公开谈到在开发VLA，其️预计今年将有至少5款车搭载元戎启行提供的VLA模型上市，其中最早的车型预计在三季度量产并上线功能。

智能辅助驾驶已经成为新车销售中的关键配置，今年伴随着英伟达DRIVE Thor等新一代芯片上车，整个行业正经历技术换代。

以VLA为代表的新模型能带来什么样的变化，这不仅是当下时下汽车行业的开发者们翘首以待的，甚至有准备购车的车主都在密切关注——毕竟动辄30万元级的购车决策，谁也不想刚买的新车在关键配置上很快落后。

️一、下一代模型VLA，将带来哪些新功能？

关于新一代的VLA模型有什么功能，理想在今年3月份的GTC上已经给了一些小小的剧透；而最近一周内，元戎启行的CEO周光在火山引擎Force大会上披露了更多细节。元戎重点展示了基于VLA 4个主要的能力：

️空间语义理解，尤其是由于遮挡造成的盲区，这是一大类常见的问题，比如桥洞通行时或者因为公交车等大车造成的动静态视野遮挡，VLA能够理解这个语义，并且执行更安全、有防御性的驾驶决策。

️异形障碍物识别，典型的比如施工、异形车或者因为超载而变形的车辆。
️文字引导牌理解，比如转弯待行区的文字指引、可变车道、潮汐车道等等。

️语音控车，通过VLA模型，系统可以根据语音指令做出对应的驾驶决策，并且当用户意愿与导航信息相冲突时，VLA模型会优先采纳用户意愿。

这些功能目前都已经有demo展示，元戎还预告了接下来还会有新的功能陆续会上线，包括豪车识别功能以及在园区里找充电桩等。

其实在过去几个月里，我们已经初步体验了一些新一代的系统，包括蔚来基于世界模型NWM的新版本，以及理想在新版AD Max（基于NVIDIA Drive Thor U平台）上部署的初代Agent能力。

其中最大的感受是️新的模型对场景的认知大幅提升，系统不再是执行一个简单的「A点移动到B点」的指令，而是会根据语音下达的需求，认识、思考、执行，从而提高增加辅助驾驶功能的便利性。比如在停车场，能根据需要找到地库的电梯口；能主动理解掉头的需求，并且找到合适的点位掉头。

不过目前我们已经体验过的demo都限于封闭地库或者园区场景，️元戎给出的新功能则更多针对开放场景，看起来组合更加丰富。

基于更大算力和先进架构的模型，显然还会有更多的功能推出。在G7上怼了3颗图灵芯片的小鹏也给了这个预期，「G7出来的时候，后面每个月都会增加新的有趣的功能，会有很多新的行业没有的功能出来，这是算力带来的想象空间。」

️二、行业为什么在这个时候，纷纷了选择VLA？

在过去一年，几乎所有主流的车企在辅助驾驶上都更新成了端到端大模型驱动的系统，在短时间内性能和体验提升都比较明显。但端到端黑盒的研发模式，导致了部分Corner Case无法追溯产生的原因，这也导致一部分车企很快地从「热恋期」进入到了「瓶颈期」。

即使是当前TOP级别的端到端系统，在面临复杂道路结构叠加复杂车流博弈时大多数情况也会崩溃。行业普遍面临瓶颈，所以很自然地有公司开始探寻上限更高的新架构。

️而VLA通过语言模型的引入，很好地解决了研发和用户两端黑盒的问题。

不过，这并不意味着端到端不值得投入开发。李想本人在最近的AI Talk中就提到，他们内部认为：如果规则算法都做不好，根本不知道怎么去做端到端；如果端到端没有做到一个非常极致的水平，那连VLA（视觉语言行动模型）怎么去训练都不知道。换句话说，️在端到端上取得大规模成功量产经验，是探索VLA的一个门槛。

小鹏是在国内智能辅助驾驶最早的推动者，而理想在2024年通过清晰的AI战略大幅加速了其辅助驾驶的研发，「E2E+VLM」的范式在去年掀起了一波不小的风潮。元戎本身是一家有很强AI基因的公司，去年它在魏牌蓝山和Smat精灵5上实现了端到端辅助驾驶方案的量产，先进性和工程能力受到头部自主品牌的认可。

接下来，小鹏将在后续车型的Ultra版本（搭载3x图灵芯片）上部署VLA；理想已经预告了除了Thor U版本，VLA也将在双OrinX版上能跑起来。

元戎对今年累计量产规模的预计是超过20万辆车，其VLA模型可以支持激光雷达和纯视觉方案，并且正寻求通过蒸馏的方式适配更多的芯片平台。

在开发车端VLA模型的同时，元戎正在通过与火山引擎在算力上合作，催化云端模型的迭代。

这些信息意味着，从规模上来讲，️VLA将成为一代非常主流的辅助驾驶大模型。

并且，由于今年绝大部分厂商的旗舰车型在硬件上将会上马Thor U，但部分厂商去年在端到端的开发上并不理想，这倒是提供了更大的机会，加强车企与供应商在先进模型上的合作。

️三、走向通用人工智能的必经之路

在G7的发布会上，何小鹏提到自研芯片的摊销门槛至少是100万片起步；图灵芯片不光会用在车上，也会用在小鹏的飞行汽车以及机器人上。

对于大模型的研发来说，其投入规模也是巨大的，预计今年底/明年头部厂商为辅助驾驶大模型的云端算力投入可能就是以1亿美金作为门槛。

理想、小鹏、元戎选择了VLA，某种程度上也是️瞄准了自动驾驶以及通用人工智能的星辰大海，希望借助VLA迈向更加远大的目标。

从VLA的起源来回溯，VLA本身最早就是由DeepMind提出来，用于机器人的模型范式。语言模型加入之后对推理能力的增加，能极大地帮助机器系统建立对世界的认知，从而形成更加通用化的能力。

元戎认为大语言模型最初是一个「弱专才」，其发展过程经历了「弱专才 - 通才 - 强专才」三个阶段，辅助驾驶模型也会类似。而现在的VLA模型是辅助驾驶领域的那个「通才」，是通过自动驾驶的必经之路。