基于深度学习的驾驶人姿态监测方法开题报告

 2022-01-02 16:50:45

全文总字数:11535字

1. 研究目的与意义(文献综述)

为了您最佳的阅读体验,请下载附件查阅,谢谢!

1.论文目的及意义

1.1 论文目的

随着自动驾驶技术的发展,驾驶员将会被解放出来,允许在汽车行驶过程中参与更多的与驾驶无关的活动,从而呈现出新的姿态, 这些新姿态是优化传统被动安全系统的重要切入点。并且根据美国汽车协会(AAA)的研究,在未来相当长的时间内,自动驾驶车辆的行驶依然依赖于人和系统的密切配合,所以需要一个系统能够实时准确估计人体当前的姿态并当驾驶员处于不正确姿态时及时提醒,从而确保安全、合理的人机交互过程。本文的目的是:一,研究深度学习技术在人体姿态估计领域的发展过程,详细介绍并比较各种网络的结构,总结技术上的关键发展并提出未来的发展方向。二,基于开源数据库搭建并训练模型,实现基于摄像头的实时有效的人体姿态估计,并开发相应的监测系统,提醒驾驶员与驾驶系统之间保持正确的联系。

1.2 论文意义

(1) 随着自动驾驶技术的变革,将在很大程度上解放驾驶员,但驾驶员依然在交通安全领域发挥关键作用。自动驾驶按照等级可划分为L1-L5,目前离我们最近的是L3级别的自动驾驶。在L3自动驾驶车辆中,驾驶大部分情况将由智能系统接管,允许驾驶员投入到与驾驶不相关的活动中去,例如工作、吃东西、看电影、读书等。但是L3级别并不完善,很多情况下系统无法做出及时可靠的判断,所以需要驾驶员的及时介入来保证驾驶安全。为确保一个舒适、安全的接管过程,驾驶人必须尽早意识到接管的需要。对驾驶人身体关键部位的定位,能够判断驾驶人正在执行的活动,甚至推测其将要执行的动作,从而为驾驶人接管能力的判断提供重要参考。

(2) 驾驶员姿态监测系统的核心为人体姿态估计技术。在过去,往往需要接触式的传感器对人体关键点进行实时准确的定位,而随着计算机的快速发展和深度学习技术的逐步成熟,使用单目摄像头实时稳定地监测驾驶员姿态成为可能。人体姿态估计一直以来都是计算机视觉任务中最复杂的问题之一,它需要考虑背景遮挡、照明、服装形状和纹理、肤色和图像缺陷等问题,并且需要使计算机学习正确的人体姿态结构,但同时人体姿态的数据库量相比于其他较少。为提升人体姿态估计的性能,除了扩充数据库、加深网络提高训练次数外,如何充分利用人体结构特点、网络学习特点,创新算法流程、网络结构成为相关领域工程师关注的话题。从2013年到现在,已经涌现出各式各样的算法结构,人体姿态估计性能有了显著地提高。本文将研究深度学习技术在人体姿态估计领域的发展过程,详细介绍并比较各种网络的结构,总结技术上的关键发展并提出未来的发展方向。

(3) ConvolutionalPose Machines和Stacked Hourglass model分别是由Wei, S.等人和Newell, A.等人于2016和2017年提出的网络结构。它们由于充分利用局部和全局的信息、执行端到端的训练等显著优点成为该领域里程碑式的结构,后续非常多的论文对这两种结构的基本单元进行改进或以它们为基础开展其他研究。本文将分别搭建这两种结构和以这两种结构为基础的其他变形,验证并比较它们在人体姿态估计任务上的性能,选择合适的模型结构开发驾驶员姿态监测系统,并提出可行的未来改进方案。

2.国内外的研究现状分析

2.1非深度学习背景人体姿态估计技术研究现状

通过计算机视觉实现非接触、低成本、高准确率、实时的驾驶人姿态检测在过去的几年中随着深度学习技术的发展逐步成为现实。其中,人体姿态估计技术,即定位图像或视频中人体各个关节点(例如头部、手腕等)并构建正确的姿态,是理解驾驶人行为的关键一环。

图1:姿态识别演示

人体姿态估计一直以来都是困难的计算机视觉问题,主要由于图像中很小或被隐藏的关键点,障碍物的阻隔,衣物、肤色的差异、光线、身体部位各自的差异、摄像头角度等等,这些都会对计算机的识别造成严重干扰。

图2:困难识别情况

在计算机视觉中人体姿势估计的经典方法是使用图片结构框架。它的基本思想是通过利用“弹簧”链接的“零件”的集合来表示人体。 其中,“零件”是在图像中利用特征匹配(例如Haar特征)得到的人体关键点,“弹簧”表示人体关键点的可变形链接,且不同“零件”间的“弹簧”具有不同的“刚度”。 该方法将人体姿态估计问题转变为结构化预测任务,准确率依赖于姿势模型的建立而不是数据集的丰富程度。因此,经典方法的研究集中在丰富模型的表示能力上。

图3:经典方法

在经典方法中,由Yang和Ramanan创造的Deformable part models【2】具有较高代表性。该模型使用混合“零件”模型来表达复杂的关键点关系,即每个 “零件”模型都有全局特征和局部特征。 这些特征在图像中匹配以检测对象。 这种混合方式可以很好地识别局部关键点,但是在全局范围内效果较差。

2.2基于深度学习的人体姿态估计技术研究现状

在ICLR 2013上,Jain, A.和Tompson, J等人首次发表用CNN结构学习人体姿态特征的论文【3】,验证深度学习技术在人体姿态估计任务上的可行性。该网络使用当时流行的滑动窗口的方式,即用CNN分类每个bounding box是否有某个关键点存在,并回归关键点相对于根关节的位置坐标。在实际测试中,该方法在准确程度上击败了所有的经典方法,但是运行速度非常缓慢,且无法利用全局信息,故无法应对遮挡等问题。在论文中作者也清楚表明该方法无法适用于任何实际场景。受这篇论文启发,在ACCV2014上,Li,S.等人用几乎相同的方法完成3D的人体姿态估计任务【24】,体现深度学习在人体姿态估计上有更大的可能性。

后续Tompson, J 和Jain, A.等人针对网络无法利用全局信息的缺陷做了一系列改进:在ACCV2014上提出将基于光流的运动特征融入到深度学习中的MoDeep【6】;在NIPS 2014上提出在深度网络提取关键点基础上,结合图像特征判断合理性,并精细关键点坐标【5】。这些方法都在一定程度上改善了缺陷,提高了人体姿态估计的性能。

图4:首次CNN人体姿态估计网络模型

在CVPR 2014上,由谷歌团队的Toshev, A.等人提出的DeepPose【4】是深度学习应用于人体姿势估计的第一篇主要论文。DeepPose以当时流行的 AlexNet作为网络结构,将原始图片作为输入并直接回归到关键点的XY坐标,后续使用Cascade的方式逐步精细各个关键点的位置。由于输入为整张图片,网络能够在更大的接受域上学习人体姿态的空间联系,所以在测试时即使存在某些关键点被遮挡,网络也能在一定程度上估计它们的位置。DeepPose的实现真正启发人们利用深度学习进一步探索人体姿态估计的可能。

图5:DeepPose网络模型

在CVPR 2015上,Tompson, J 和Jain, A.等人在DeepPose的想法上提出了更为有效的网络模型EfficientObject Localization Using Convolutional Networks【7】。在论文中他们论证通过图像回归关键点XY坐标减弱了generalization效果并且增加网络学习的复杂程度,不通过FullConnection而由1 * 1卷积输出Heat-map可以有效提高网络性能。因此,从该论文开始,后续的网络输出大部分为Heat-map。网络在结构划分为Corse Heat-MapModel和FineHeat-Map Model:CorseHeat-Map Model通过同时运行多个分辨率的图像来生成Heat-map,以同时捕获各种比例的特征,提升网络在全局信息上的捕获能力;FineHeat-Map Model用于弥补pooling的负效应,并恢复由于Corse模型中多个分辨率的合并而损失的空间精度。不同于DeepPose每部分需要单独训练,该网络在结构上的划分是人为,总体是端到端的训练,故适用性更强。

图6:Efficient ObjectLocalization网络模型

在CVPR 2016上,Wei, S., Ramakrishna, V.等人提出由Pose Machine改造的深度网络结构ConvolutionalPose Machines(CPM)【9】。Pose Machine是第一个提出利用机器学习人体部位之间紧密联系,并由已知部位推断未知部位的算法。深度网络可以轻松地学习某些一致性强的特征,例如脸部、肩部等;而对于运动、遮挡、相似的关键点,它的识别准确率低得多。CPM就是结合这二者的特点:通过深度网络确定比较容易定位的关键点,再由PoseMachine进行推断。CPM在网络结构上是分多阶段进行的,每一阶段的输入为上一阶段的Heat-map输出和图像特征,即通过图像特征信息利用PoseMachine算法进行Heat-map进行优化。另一个采用多阶段的原因是为了扩大网络的接受域,使网络能接受更多的信息进行学习。网络一开始的接受域很小,需要不断地卷积来扩大接受域,但过深的网络会造成梯度消失等问题。多阶段的进行可以在每一阶段后采用中间监督来避免这个问题。论文经过实验表明网络在分阶段进行中确实一步一步在学习,且通过提高CPM的阶段数可以更进一步提升性能。

图7:CPM网络模型

在ECCV 2016上,Newell, A., Yang, K.等人提出一种全新的网络模型StackedHourglass Networks。【10】网络多阶段运行的特点与CPM类似,每一阶段的输入为上一阶段的输出,在多阶段的进行中逐渐学习人体姿态模型的空间联系。它的每一个阶段都是down-sample接up-sample的过程:down-sample用于扩大网络接受域,以全局信息为目标;up-sample专注于局部信息,提高回归的精确度。down-sample和up-sample在网络中的比重相同,能尽可能多地捕获各个尺度下的信息,并通过skip-layers保存并传递这些信息,所以结构像沙漏一般,具备上下流通的特点,在人体姿态估计任务上拥有卓越的性能。

StackedHourglass Networks有很多的改进结构:Chu,X., Yang, W. 等人在CVPR2017上提出Multi-ContextAttention的结构【11】,原始网络不再直接输出Heat-map,而是输出三种Attention,用于逐步区分人体区域与环境区域,在此基础上优化Heat-map的输出;Yang, W., Li, S.等人在ICCV 2017上提出Learning FeaturePyramids的结构【12】,强化原始网络在多尺度的推理,并设计新的网络初始权重的分配方案;LipengKe, Ming-Ching Chang 等人在ECCV2018 上提出Multi-ScaleStructure-Aware网络结构【21】,对原始网络做出四个主要改进,弥补网络在某一个尺度上过度拟合,使最终模型的回归效果不稳定和计算costfunction时没有足够的先验知识的两大问题。

图8:StackedHourglass Networks网络模型

在ICCV 2017上,Chen, Y., Shen, C.等人提出将GAN网络与StackedHourglass Networks相结合【14】;在ArXiv 2017上,Chou, C., Chien,J.等人也提出类似的办法。【15】以StackedHourglass为基础的DCNNs可以很好地学习并预测特征,却难以实现推理,所以对于严重遮挡和背景类似人体的情况,预测的人体姿态时会出现不合理之处。在关键点估计后采用GAN来学习隐式的人体模型特征,能够避免和纠正不合理人体姿态的出现。

图9:GAN融合网络模型

在FG 2017上,Belagiannis, V.和Zisserman, A.完成首个基于RNN的人体姿态估计网络【16】。原始图像先经过标准的FCN,独立检测人体关键点,随后将图像特征输入到RNN结构中,进行多次的迭代和信息的传递,使网络能对人体姿态模型进行学习。RNN结构相比于CPM和Hourglass model,他们的想法类似,但是RNN所需要学习的参数比其他两者要小。

图10:RNN融合网络模型

在IEEE Transactions on Multimedia 2018上,Ning, G., Zhang,Z.等人提出将外部知识注入深度学习网络的Knowledge-GuidedDeep Fractal Neural Networks【17】。外部知识的注入是为了指导网络能更好地学习人体各关键点之间互相约束与依赖的高等信息,而非缓慢的纯粹数据驱动方式。在网络结构上,它结合Inceptionnetwork和Resnetmodel的优点,设计Inception-Resnet作为基本块,并设计分支线路网络。采用该结构是因为:随着网络的进行,接受域越来越大,会不可避免地囊括进噪声,比如人体左膝与右膝靠的近时,网络会产生误判。所以在网络的初期,接受域还比较小的时候,不但要关注局部,还有关注局部与附近的依赖关系,而这依赖关系就需要采用Inception-Resnet进行捕获;同时在主网络外分支一条线路,将高级的网络接受域用于低级的局部情况,使低级的网络也能对接受域有个整体的了解。不同于外部知识注入,XuechengNie, Jiashi Feng等人在CVPR2018上提出将外部网络注入的ParsingInduced Learner(PIL)结构【18】。在训练人体姿态估计模型的同时训练人体分析模型,并将人体分析模型的输出作为参数注入到人体姿态估计中,帮助人体姿态估计模型有效地学习人体关键点约束和依赖的特定关系,从而纠正不正确的位置估计结果。

图11:外部注入模型 左:知识注入 右:网络注入

对于视频的人体姿态估计,Pfister, T., Charles, J.等人在ICCV 2015上提出Flowing ConvNets【8】,使用相邻帧的Optical flow来提高当前帧姿态估计的准确性。YueLuo, Jimmy Ren等人在CVPR2018提出将PoseMachine改造为RNN的LSTM PoseMachines【19】。它的RNN结构能够对多阶段网络之间的联系进行解耦,使其大幅提升在视频中的运算速度;在视频帧之间采用LSTMunit能够实现帧之间的空间结构联系,以解决单帧模糊的问题。

图12:LSTM PoseMachines网络模型

通常情况下,由于3D数据维度高、模糊性较大、面对的干扰因素更多,从二维RGB图像中估计三维人体姿态比直接估计二维姿态困难得多。Tomè, D., Russell,C.在CVPR 2017上提出 Human PoseEstimation = 2D Pose Estimation Matching的结构【25】,将二维姿态估计结果通过与资料库匹配,得到最近的三维人体姿态。Zhou, X., Huang,Q.在ICCV2017上提出一种以2D、3D标签混用,利用Weakly-supervised的方式训练深度回归模块来直接获得三维人体姿态的方法【26】。Sun, X., Xiao,B.在ECCV2018上提出IntegralHuman Pose Regression的结构【27】,将2D输出混合成3D形式,同时提出Soft-argmax的回归方式,弥补Heat-map的分辨率低于输入图像的分辨率导致的量化误差。

图13:Integral HumanPose Regression模型

在ECCV 2018上,Bin, Xiao, Haiping Wu等人简化HourglassNetworks提出最简单的人体姿态估计网络结构【20】,在COCO数据集上达到了73.7%的准确率,可以称为目前深度学习在人体姿态估计网络上的baseline。在CVPR 2019上,Ke Sun, Bin Xiao等人提出在整个过程中都高分辨率保持、多分辨率并行的DeepHigh-Resolution Representation Learning结构【23】,使网络在学习中获得最多最全的信息,在COCO数据集上达到了92.3%的准确率,可以代表目前深度学习在人体姿态估计网络上的最优性能。

图14:DeepHigh-Resolution Representation Learning网络模型

2. 研究的基本内容与方案

3.研究(设计)的基本内容、目标、拟采用的技术方案及措施

3.1研究内容

(1)研究深度学习技术在人体姿态估计领域的发展过程,阅读大量文献,比较各种算法的特点、网络的结构和开源数据集上的性能,总结技术上的关键发展并提出未来的发展方向。

(2)利用开源数据集和开源代码搭建各种人体姿态估计网络模型,实际进行验证。

(3)采集驾驶员在驾驶室环境下各类姿态,并进行数据预处理(包括姿态标注,数据增强,高斯图生成等)。选择合适的搭建模型并进行迁移训练。优化在驾驶室环境下的人体姿态估计性能。

(4)根据姿态估计结果制定监测与提醒策略,确保驾驶员在特殊情况发生时尽早做好接管的准备。

3.2 研究目标

ConvolutionalPose Machines和Stacked Hourglass model分别是由Wei, S.等人和Newell, A.等人于2016和2017年提出的网络结构。它们由于充分利用局部和全局的信息、执行端到端的训练等显著优点成为该领域里程碑式的结构,后续非常多的论文对这两种结构的基本单元进行改进或以它们为基础开展其他研究。本文将分别搭建这两种结构和以这两种结构为基础的其他变形,验证并比较它们在人体姿态估计任务上的性能,选择合适的模型结构开发驾驶员姿态监测系统,并提出可行的未来改进方案。

3.3 拟采用的技术方案及措施

(1)通过网络资源学习深度学习相关知识,并进行一些练习。

(2)阅读30篇以上英语核心文献,选取参考价值高的概括算法流程、网络结构等内容,并进行总结。

(3)利用2D开源数据集MPII Human Pose Dataset、LSP、FLIC-plus和开源代码AlphaPose、pytorch-pose、human-pose-estimation.pytorch、deep-high-resolution-net.pytorch等搭建各种人体姿态估计网络模型,并进行实际验证。

(4)利用摄像头采集人体在Apollo车辆中的照片,根据网络的输入和cost function要求预处理图片数据。

(5)选择合适的网络模型,开展迁移训练,同时不断调整超参数,优化网络结构,使在驾驶室环境下的人体姿态估计性能达到最佳。

(6)参考之前驾驶员姿态监测的文献制定相关策略,开发相应软件。

3. 研究计划与安排

4.进度安排

表1 进度安排表

时间

工作内容

2020.1.7~2020.2.24

确定毕业设计选题;通过网络资源学习深度学习相关知识;进行一些练习

2020.2.24~2020.3.22

阅读30篇以上英语核心文献,选取参考价值高的概括算法流程、网络结构等内容,并进行总结

2020.3.23~2020.4.15

搭建模型,实际验证

2020.4.16~2020.4.26

采集处理数据,开展迁移训练

2020.4.27~2020.5.10

制定监测策略,完成软件开发

2020.5.11~2020.5.17

完成论文

2020.5.17~2020.6.4

补上进度、查漏补缺、整理材料

2020.6.4~

参加答辩

4. 参考文献(12篇以上)

5.参考文献

[1]王宏雁,赵明明,BEURIER Georges,WANG Xu-guang.汽车驾驶人姿态监测系统研究综述[J].中国公路学报,2019,32(02):1-18.

[2] Yi Yang, Deva Ramanan, ArticulatedHuman Detection with Flexible Mixtures-of-Parts, IEEE Trans Pattern Anal MachIntell

[3] Jain, A., Tompson, J., Andriluka,M., Taylor, G.W., Bregler, C., Learning Human Pose Estimation Featureswith Convolutional Networks, ICLR 2013

[4] Toshev, A., Szegedy, C.,DeepPose: Human Pose Estimation via Deep Neural Networks, CVPR 2014

[5] Tompson, J., Jain, A., LeCun, Y., Bregler, C., Joint Training of a Convolutional Network and a GraphicalModel for Human Pose Estimation, NIPS 2014

[6] Jain, A., Tompson, J., LeCun, Y., Bregler, C., MoDeep: A Deep Learning Framework Using Motion Featuresfor Human Pose Estimation, ACCV 2014

[7] Tompson, J., Goroshin, R., Jain, A.,LeCun, Y., Bregler, C, Efficient Object Localization UsingConvolutional Networks – T, CVPR 2015

[8] Pfister, T., Charles, J., Zisserman, A., Flowing ConvNets for Human Pose Estimation in Videos, ICCV2015

[9] Wei, S., Ramakrishna, V., Kanade,T., Sheikh, Y., Convolutional Pose Machines, CVPR 2016

[10] Newell, A., Yang, K., Deng,J., Stacked Hourglass Networks for Human Pose Estimation, ECCV 2016

[11] Chu, X., Yang, W., Ouyang, W., Ma,C., Yuille, A.L., Wang, X., Multi-context Attention for Human PoseEstimation, CVPR 2017

[12] Yang, W., Li, S., Ouyang, W., Li,H., Wang, X., Learning Feature Pyramids for Human Pose Estimation, ICCV2017

[13] Sun, K., Lan, C., Xing, J., Zeng,W., Liu, D., Wang, J., Human Pose Estimation Using Global and LocalNormalization, ICCV 2017

[14] Chen, Y., Shen, C., Wei, X., Liu,L., Yang, J., Adversarial PoseNet: A Structure-Aware ConvolutionalNetwork for Human Pose Estimation, ICCV 2017

[15] Chou, C., Chien, J., Chen,H., Self Adversarial Training for Human Pose Estimation, ArXiv 2017

[16] Belagiannis, V., Zisserman,A., Recurrent Human Pose Estimation, FG 2017

[17] Ning, G., Zhang, Z., He, Z.,Knowledge-Guided Deep Fractal Neural Networks for Human Pose Estimation, IEEETransactions on Multimedia 2018

[18] Xuecheng Nie, Jiashi Feng, YimingZuo, Shuicheng Yan, Human Pose Estimation with Parsing Induced Learner, CVPR2018

[19] Yue Luo, Jimmy Ren, Zhouxia Wang,Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang Lin, LSTM PoseMachines, CVPR 2018

[20] Bin, Xiao, Haiping Wu, Yichen Wei,Simple Baselines for Human Pose Estimation and Tracking, ECCV 2018

[21] Lipeng Ke, Ming-Ching Chang,Honggang Qi, Siwei Lyu, Multi-Scale Structure-Aware Network for Human PoseEstimation, ECCV 2018

[22] Wei Tang, Pei Yu, Ying Wu, DeeplyLearned Compositional Models for Human Pose Estimation, ECCV 2018

[23] Ke Sun, Bin Xiao, Dong Liu,Jingdong Wang, Deep High-Resolution Representation Learning for Human PoseEstimation, CVPR 2019

[24] Li, S., Chan, A.B., 3D HumanPose Estimation from Monocular Images with Deep Convolutional Neural Network,ACCV 2014

[25] Tomè, D., Russell, C., Agapito, L., Lifting from the Deep: Convolutional 3D Pose Estimation from aSingle Image, CVPR 2017

[26] Zhou, X., Huang, Q., Sun, X., Xue,X., Wei, Y., Towards 3D Human Pose Estimation in the Wild: aWeakly-supervised Approach, ICCV 2017

[27] Sun, X., Xiao, B., Liang, S., Wei, Y., Integral Human Pose Regression, ECCV 2018

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。