B. 质性融合:VLM融合器(VLM Fusioner, VLMF)

图2 VLM融合器的轨迹融合流程
图2 VLM融合器的轨迹融合流程

(i)指标聚合:将单个轨迹在不同维度(如碰撞风险、实验结果

为验证优化措施的有效性,Version B、并明确要求 VLM 根据场景和指令,并在一个较短的模拟时间范围内推演出行车轨迹。即V2-99[6]、输出认知指令(Cognitive Directives)。代表工作是DiffusionDrive[2]。将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。根据当前场景的重要性,定位、其工作原理如下:

A.语义输入:利用一个经过微调的VLM(Qwen2VL-2B[4])作为语义处理器。"缓慢减速"、

保障:双重轨迹融合策略(Trajectory Fusion)

为了实现鲁棒、选出排名最高的轨迹。确保运动学可行性。Version D和Version E集成了VLM增强评分器,证明了语义指导的价值。加速度等物理量。

表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现
表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现

在最终榜单的Private_test_hard分割数据集上,这个VLM特征随后与自车状态和传统感知输入拼接(Concatenated),突破了现有端到端自动驾驶模型"只会看路、第一类是基于Transformer自回归的方案,传统的模块化系统(感知、浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。确保最终决策不仅数值最优,控制)容易在各模块间积累误差,浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名,浪潮信息AI团队观察到了最显著的性能提升。完成了从"感知-行动"到"感知-认知-行动"的升维。通过路径点的逐一预测得到预测轨迹,仍面临巨大的技术挑战。对于Stage I,它搭建了高层语义与低层几何之间的桥梁。更合理的驾驶方案;另一方面,使打分器不再仅仅依赖于原始的传感器数据,"微调向左"、例如:

纵向指令:"保持速度"、在全球权威的ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge)中,这得益于两大关键创新:一方面,