面向汽车自动驾驶的模拟图像生成技术及应用研究

刘镇疑
94

作者单位:吉林大学


论文类型:博士学位论文


摘要自动驾驶是汽车技术发展的主要方向,而以深度学习为代表、基于数据驱动的目标检测算法是自动驾驶感知系统的重要组成部分,在汽车自动驾驶领域取得了重要进展。使用车载相机采集的图像数据已经被广泛应用于基于深度学习方法的模型训练和目标检测,但也面临着一些问题 :一方面,基于深度学习的目标检测方法依赖大量带有语义标签的数据 。大量的图像数据采集不仅成本高昂、采集过程的安全性难以保障。而且,图像数据的人工标注也十分繁琐,不仅成本高、而且精度难以保障。这都严重制约着基于深度学习方法的自动驾驶感知算法的快速发展 。另一方面,图像的观察角度或主体从人变成了深度学习模型,深度学习方法的一个局限性是可解释性不强,因此如何针对深度学习模型对图像数据的需要进行图像采集系统的设计值得深入研究。


近年来图像模拟技术日益成为了解决上述问题的有效手段:利用计算机模拟生成图像有其高效、安全和可自动完成像素级别精准标注等优势,可大幅减少路采数据成本高、安全难以保障、人工标注精度难以保障等诸多问题;另一方面,图像模拟可针对深度习算法对图像数据的特征需求进行设计和优化。然而,现有的图像模拟技术还难以解决上述问题:1 ) 目前主流的图像模拟技术还是以提升人类视觉系统感知效果为主,并不是以真实表达图像物理特性为目标,因此难以对图像的物理属性进行量化分析和提供有物理含义的参数 ;2 ) 目前使用模拟图像作为训练集的深度学习模型在检测性能上仍与使用真实图像数据训练的模型有明显差距,如何提升模拟图像数据集的模型训练效果及感知性能仍是个有待解决的问题。


针对上述问题,本文主要开展了相应的研究并取得了以下几方面的研究成果:


( 1 ) 提出了高物理真实度且可量化的图像模拟方法。本文采用了光线追踪的方式模拟了光子在 场景中从光源发出到被相机传感器接收的过程:光子经过物体反射 ,相机光学模组的透射,抵达相机传感器表面的传播过程,同时模拟了光子在相机传感器成像的过程,包括光电转换,色 彩滤波,光子噪声,器件噪声,模数转换,去马赛克及图像后处理的过程。本文使用有明确物理 意义的参数控制从光子到图像的转换过程,并通验分别验证了模拟图像低阶特征(low-level feature) 的物理准确性和高阶特征(high-level fe a tu re )在深度学习模 型上的有效性。该方法可同时满足面向深度学习方法的定量分析和参数化生成图像集的需求。

( 2 ) 构建和开源了一个面向汽车自动驾驶的模拟图像集生成平台, 以满足高逼真度场景构建和 规模化生成图像集的需求 。平台采用了德国航空航天中心开发的交通流仿真软SUMO ( Simulation of Urban Mobility )对场景中的交通参与物体(车辆,行人等 )进行参数化控制,同时提出了SUSO ( Simulation of Stationary Objects) 的方法自动化地配置场景中的非交通对象 (树木 ,楼房等 )。针对高质量图像集生成对计算平台算力和存储空间的要求,本文采用容器 编排平台Kubernetes规模化地使用云端的计算集群生成图像,对三维素材采用云数据库Flywhee l进行高效地存储和管理。该方法为模拟图像集的生成 、参数配置和深度学习模型的训练验证提供了高效手段。


( 3 )提出了自动驾驶目标检测任务的图像质量评价标准:OD50 (Object Distance at 50% average precision在平均精度为50%下的物体距离)。针对传统面向人类视觉系统的质量评价标(MTF 5 0和SNR)难以满足自动驾驶感知测试要求等问题,本文提出的OD50在平均精度(AP )的基础上增 加了目标距离的维度(AP, Z ),更适用于自动驾驶的感知测试需求 。针对深度学习算法可解释 性差的问题,本文利用OD50评价标准和模拟图像集生成平台,进一步深入分析了相机成像的 关键要素包括像素大小,色彩滤波阵列,传感器曝光算法和后处理算法等对深度学习算法的影响 发现:对深度学习算法,成像过程影响较大的是曝光算法,而通常人类视觉系统更敏感的图像后处理算法对深度学习算法的检测准确性没有显著影响。


( 4 ) 提高了模拟图像集到真实图像集上的泛化性能,解决了过去使用模拟图像训练的深度学习模型在真实场景中目标检测准确率不高的问题。通过深入研究基于深度学习算法在模拟和真实图 像集之间训练测试的差距发现,在自动驾驶应用中,影响模拟图像集泛化性能的关键指标是:样 本多样性、数据域差距,场景渲染质量和相机参数匹配等 。最后 ,本文在泛化关键性指标的指导下生成了ISET Auto模拟图像集,并开展了基于深度学习的目标检测算法的模型训练,采用了 自动驾驶常用的真实图像集KITTI Cityscape 对训练后的模型进行了测试 ,与目前具有领先水平的模拟图像集相比,本文提出的ISET Auto模拟图像集其检测结果的平均准确率分别提升了13%和40% ,与真实图像集之间的泛化性能水平接近 ;因此本文提出的模拟图像生成技术可用于深度学习模型的训练,减少深度学习算法对大量真实路采图像的需求,对于加快汽车自动驾驶感知算法的研发具有重要意义。


关键词:自动驾驶,深度学习, 目标检测,模拟图像,图像集质量,域差距 ,计算机图形学,相机