大模型驱动下的自动驾驶发展

时间：2026-02-02 09:06

来源：中国固废网

作者：徐冰冰

12月19日，“ 2025(第三届)AI+环卫高峰论坛”顺利举办，清华大学自动化系助理研究员、博士后赵林清受邀出席，并作题为《大模型时代下的自动驾驶》的专题发言。

发言中，赵林清系统回顾了人工智能与智能交通融合的发展历程，深入剖析了自动驾驶视觉感知核心技术，分享了团队最新研究成果，并对行业未来安全发展方向提出展望，为环卫行业等低速自动驾驶应用场景的技术革新提供了重要参考。

赵林清

AI与智能交通融合演进：从规则驾驶到智能自动驾驶

赵林清在发言中首先梳理了AI与智能交通结合的演进脉络。他指出，二者的交集始于20世纪50年代的交通流计算机模拟，历经70年代专家系统解决交通问题的应用探索；90年代智能交通系统雏形出现；21世纪初GPS导航商业化落地，在2010年迎来自动驾驶技术快速发展期，进入2020年后，智能交通设施的规模化部署推动二者融合持续深化，整体完成了从规则控制驾驶到智能自动驾驶的跨越。

自动驾驶核心攻关方向与视觉感知技术解析

作为新一代智能视觉感知系统的核心应用，自动驾驶需攻克四大关键问题：环境感知（三维检测、占有预测、场景重建等）、行为预测（碰撞预测、轨迹预测、行人预测等）、自主决策（轨迹规划、自主泊车、安全避障等）及车路协同（车间通信、人车通信、车路联网等），最终实现感知、控制、决策一体化的智能系统构建。

赵林清重点解读了自动驾驶感知技术的核心目标——高效三维重建和精准场景理解，并将其分为低层与高层视觉感知两大层面。

低层视觉感知聚焦“还原三维世界”，通过深度估计、鸟瞰图预测、语义占有预测、神经辐射场重建等技术，将二维图像投影的三维世界信息还原重建；高层视觉感知则侧重“场景理解与推理”，通过三维实例分割、三维物体检测、车道线预测、交通信号识别等技术，实现车辆、距离、车道线、交通信号灯等关键元素的快速识别与逻辑推理。

他介绍，自动驾驶车辆通过多模态传感器协同工作实现全面感知，包括GPS定位、惯性传感器、激光雷达、中控电脑、红外传感器、雷达传感器等，这些设备分别承担“视觉观测、距离测量、运动感知”的功能，共同构成自动驾驶系统的“感知体系”。

当前主流视觉感知技术方案分为两类：一是以特斯拉为代表的纯视觉方案，依托8个及以上摄像头结合毫米波雷达等简单传感器，模拟人类驾驶过程，成本最低但技术开发难度最大；二是多传感器融合方案，以激光雷达与视觉融合为核心，国内多数企业因安全性冗余需求采用该路线，但存在成本较高的问题。

赵林清团队核心研究方向聚焦纯视觉方案，其技术理念源于马斯克“第一性原理”——人类驾驶仅依靠视觉与经验判断，通过强化模型能力即可模拟人类驾驶逻辑。他补充道，激光雷达在远距离物体识别中存在准确率下降的缺陷，而视觉传感器技术成熟，以特斯拉、百度为代表的头部厂商均以视觉感知为核心，这也成为自动驾驶的主流发展趋势。

大模型时代技术趋势：团队闭环驾驶模型成果分享

针对大模型时代自动驾驶的发展方向，赵林清提出“生成式、自监督、空间感知”三大核心趋势。他介绍，其团队10余名成员专注于自动驾驶大模型研究，提出“基于三维场景表示的自监督闭环驾驶模型”，相关成果已实现开源，自2022年切入该领域以来，已与华为、理想、长安汽车等多家车企达成深度技术合作。

团队研究历经从基于深度的三维场景表示到跨视角全场景占用表示的升级，将三维空间划分为密集格子，通过“格子占用状态”实现核心表示；同时推动自动驾驶范式从分段式端到端向基于世界模型的生成式自动驾驶演进。赵林清解释，世界模型可模拟驾驶动作的后续影响，解决自动驾驶训练中“特殊场景数据稀缺”的痛点——通过精准预测未来场景，生成车祸、突发并道等稀有高价值数据，为模型训练提供充足支撑。

基于此，团队发布闭环自动驾驶大模型Doe-1，首次提出“闭环自动驾驶”概念，实现“观测-描述-动作-未来画面生成”的闭环链路，可完成视觉问答、条件图像生成等任务，通过不同动作驱动生成多样化场景结果。

现场，赵林清展示了demo功能，该模型可实现时间静止、空间静止、多视角仿真等效果，生成的图像达到以假乱真水平，能够按需产生海量训练数据。此外，团队研发的可交互世界模型，可基于单张图像模拟真实场景运转规律，支持用户自由切换位置与视角，直观呈现场景变化。

未来展望：聚焦自动驾驶安全，筑牢行业发展根基

展望未来，赵林清强调，自动驾驶安全是核心前提，无论是高速自动驾驶还是环卫行业低速自动驾驶，均需重点关注两大安全方向：一是感知传感器安全性，通过引入虚拟相机空间，将不同配置相机输入统一映射，实现多配置相机的高效迁移与统一感知；二是场景变化下的安全性，针对现有数据驱动框架泛化性、鲁棒性不足，恶劣天气下表现不佳的问题，可通过数据仿真平台与视频生成技术，生成高真实性、强交互性的感知决策环境，提升数据鲁棒性与规模化水平。

赵林清总结指出，自动驾驶有望成为新一代人工智能核心技术，引爆新一轮技术革新，对国家发展具有重大战略意义；高效精准感知是自动驾驶系统的重要前提，三维场景表示方法是行业发展的核心推动力，而基于三维场景表示的自监督闭环驾驶模型，将为下一代自动驾驶系统构建奠定基础。

编辑：徐冰冰