自然场景中的文本区域检测研究开题报告

 2021-11-22 21:51:08

1. 研究目的与意义(文献综述)

近年来,随着云计算、物联网等技术的蓬勃发展和快速落地,已经有越来越多的智能终端被部署到了现实生活中并投入正式使用。小如停车计费系统、工业检测系统,大如智慧城市系统中的传感器网络,这些新近部署的智能终端中,有相当大的一部分都依赖于由一个或者多个数字摄像机拍摄的实时影像来实现其既定功能。随着类似的硬件产品的大量部署,这些硬件上的数字摄像机每天都将产生大量需要进行实时或离线分析的图像数据。另一方面,随着近年来社交媒体、短视频平台等的快速发展,每天都会有海量的用户生成内容(user-generated content,ugc)被创造、传播、储存。 面对日益增长的数据规模,如何对这些图像数据进行高效、准确地分析、挖掘、索引、利用也逐渐成为了广受学术界和工业界关注的问题。这些规模日渐增长的数据,特别是以图像和视频为主的ugc 往往是在各种各样的室内、外场景下拍摄的,这些不固定的、背景光照等因素不受人为控制的场景一般被统称为“自然场景”。一方面,在日常生活中,各种智能设备采集了大量的含有道路标识、广告商标、宣传标语等形式各样的文本信息的图像;另一方面,随着自媒体的蓬勃发展,在最近的几年中,视频类 ugc 中的字幕的数目也快速增长起来。为了高效、准确、全面地理解这些数据,在上述图像中有效地检测并识别出文本信息的位置与内容的技术与方法有着显而易见的研究价值和现实意义。

一直以来,文本检测都受到了国内外许多研究人员的青睐与关注。在2012年之后,基于深度学习方法的文本检测方法占据各个数据集的榜首,在此之前主要是传统特征设计方法,之后则主要为深度学习方法。

传统的文本检测方法基于手工制作的低级特征来区分场景图像中的文本区域和非文本域,主要可分为两类:基于滑动窗口(sliding window)的方法和基于连通域(connected component)的方法。但传统算法的效率通常较低,并且绝大多数方法是基于水平方向的文本检测,对更为复杂的多方向自然场景文本不敏感;当处理具有挑战性的自然场景文本时,这些方法的性能并不令人满意。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1基本内容

本次毕业设计的内容是使用tensorflow平台实现基于深度学习的自然场景文本检测的研究。tensorflow是一个开源的软件库,可被用于语音识别或图像识别等多项机器学习和深度学习领域。

本次毕业设计的具体研究的内容如下:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1~3周:调研,完成开题报告。

4~6周:熟悉python语言和tensorflow开发平台。

7~8周:熟悉所用模型及其实现方式。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

  1. zhandong liu,wengang zhou,houqiang li. scene text detection with fully convolutional neural networks[j]. multimedia tools and applications,2019,78(13).

  2. xiyan liu,gaofeng meng,chunhong pan. scene text detection and recognition with advances in deep learning: a survey[j]. international journal on document analysis and recognition (ijdar),2019,22(2).

  3. hong-hyun kim,jea-ho jo,zhu teng,dong-joong kang.text detection with deep neural network system based on overlapped labels and a hierarchical segmentation of feature maps[j]. internationaljournal of control, automation and systems,2019,17(6).

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。