基于图神经网络的监控场景下多标签行人特征识别开题报告

 2021-11-20 23:00:13

1. 研究目的与意义(文献综述)

计算机视觉是人工智能的强大驱动力之一,其研究目标是:通过模仿人类,使计算机能够捕获并理解视觉数据,近年来,监控设备随着安防产业的发展大量增加,利用计算机技术实现监控系统的智能化成为一个热门的研究领域。行人作为一个重要的监控对象之一,人们希望获取监控场景中行人的视觉属性,如体型、衣物风格和配饰物等,属性识别已经成为计算机视觉中的一个研究热点。作为行人外观特征,行人属性的高效识别已成为一项行人视觉分析的基础任务,被广泛应用于智能监控、人机交互和图像检索等领域,有巨大的学术研究和商业运用价值。作为人工智能分支之一的计算机视觉,其目的是使机器拥有与人类相似的感官程序,进而自主获得视觉数据,并进行分析决策,以实现目标检测和识别等基本的视觉任务。近年来,以深度学习为代表的前沿技术理论研究的丰富以及相应工业应用的发展,使计算机视觉的研究取得长足进步,在人脸识别和目标分类等多种视觉任务中已远超人类。

当前单标签图像分类的主流网络是卷积神经网络(convolution nerual network),其中经典的卷积网络模型包括alexnet、vgg、googlenet、inceptionnet、resnet等等,同时也有许多人使用卷积神经网络完成多标签图像分类任务。zhang等人和gkioxari等人将基于块的模型和卷积神经网络结合,通过姿态正则化来完成属性分类。由于事先无法知道标签对应于图像中的哪一部分区域,多标签图像分类属于弱监督问题,有学者研宄弱监督定位框架用于多标签的识别,可以实现仅使用图像级标签定位图像中每个语义级实例。bilen等人使用候选区域框和空间金字塔池化(spatial pyramid pooling,spp网络设计了一个同时进行分类和检测的任务框架,作者首先使用imagenet数据集训练网络得到初始化的权重,然后在最后一层卷积层上得到的特征图上进行区域特征提取,紧接着添加spp模块,将网络分成两个分支,一个用于分类,另外一个用于检测,两分支得到的特征融合在一起进行多标签的分类。oquab等人将网络最后的全连接层全部改成卷积层,网络可输入任意大小的图像,并使用全局最大池化层,作为目标位置的响应得分,并基于这个得分设计损失函数用于标签预测。

深度学习技术在多标签图像识别领域的不断探索可视为提取信息更丰富的图像特征,和利用图像特征之间的关系,进而间接学习标签之间的联系,图像的特征中包含着丰富的空间信息以及语义信息,比直接学习标签间的联系更加容易。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

基本内容:本论文拟设计一个图神经网络模型,用以对监控场景下行人进行特征识别,输入为监控视频中的行人图像,经算法处理后,输出为行人外观所展现出的视觉属性。再深入研究图卷积神经网络的基本原理基础上,利用python对行人重识别数据库进行训练,建立一个神经网络模型,对输入图像进行行人特征识别。

目标:对行人图像外观属性进行识别,预测图像中行人所存在的一系列目标标签。由于图像中的任务外观目标通常是同时出现的,因此理想状态下,对不同目标标签的依赖性进行建模以便提高模型的识别性能。

采用的技术方案及措施:主要由两部分组成,第一部分为图像表示学习,设计一个卷积神经网络cnn,图片经过cnn之后,提取出一个特征向量;第二部分是基于gcn的分类器学习,设计一种图卷积网络模型,通过在目标标签之间构建有向图,其中每个节点由词嵌入表示,gcn 网络用于将该标签图映射到一组相互依赖的目标分类器,这些分类器使用另一个子网络提取的图像描述器,实现整个网络的端到端训练。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

(2)第5-6周:熟悉掌握基本理论,完成英文资料的翻译,熟悉相关工具软件的使用。

(3)第7-9周:通过训练模型,搭建神经网络模型

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]刘威威. 基于标签相关性学习的多标签图像识别研究[d].华中科技大学,2019.

[2]罗承成. 基于多示例多标签的果蔬识别关键技术研究[d].西北农林科技大学,2012.

[3]袁向敏. 多标签图像数据的特征选择问题[d].温州大学,2017.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。