基于深度学习的自然场景下文本识别算法的研究开题报告

 2022-01-09 21:01:15

全文总字数:4947字

1. 研究目的与意义(文献综述)

1.目的及意义文字是人类进步和发展的重要基石,它为促进人类物种和人类文明的繁荣做出了不可估量的贡献。从约公元前3200年源于底格里斯河的苏美尔人发明楔形文字开始,世界各地的族群在文字方面绽放了各不相同的文明智慧,这些如同绘画一般的简单文字逐渐被镌刻在五湖四海的洞窟石壁,帮助远古时期的人类交流生活经历,使得系族间的交往更加密切。自此开始衍生发展了语言,这是人类社会建立的开端,也是人类智慧的集中体现。语言提高了人类的认知水平,出现了各种灿烂的文化,同时对于社会历史的发展,国家的融合,文化的传播都具有深远的影响。正是因为文字的出现,我们的生活才会变得通透明亮。在现在这个科技水平指数型增长的数据时代,随着通讯技术和通讯设备的不断改进,大量的数据可以在越来越短的时间内迅速传递,这也让更多的科技有了长足发展的基础和可能性,人工智能领域展现了极强的发展态势,深度学习相关知识日益成熟推进了这一进程,它模仿人脑的机制来解释数据,例如图像,声音和文本。文本的检测和识别一直是深度学习研究的重点,目前仅包括文本内容和简单的背景(如白纸黑字)的文本识别检测可以通过传统的光学字符识别(optical character recognition,ocr)实现,且这项技术已经较为成熟并充分利用在人们的工作和生活中。但仅仅从简单背景中识别文本并不能充分满足人们的各类需求,尤其是在这个科技发展寻求智能化的当下,自然场景下的文本检测和识别迫切需要投入研究,人们需要一种如同自己的眼睛一般的技术,需要计算机做到和人一样,看一眼就可以检测到哪些位置有哪种类型的文本,然后很好地识别出文本的释义。自然场景下文本检测和识别具有以下应用场景:(1)智能场景翻译经济和科技的迅速发展,拉近了世界各地人们的距离,增加了人们想要传播交流彼此文化的愿望,这时不同的语言背景无疑是其中最大的阻碍,翻译软件可以很好地处理已知的文本,如通讯软件上的聊天内容,书籍报刊上的文本内容,背景简单文字清楚的图片上的文本。但如果是一张当地景观的随手拍,图片上有很多干扰物,文本的检测和识别就会出现麻烦,这时就需要很好的自然场景下的文本识别系统。它能帮助翻译软件在翻译前准确把握应该翻译的文本内容,让人们掌握陌生场景下文本的准确含义。(2)图片和视频的内容检索对于图片和视频的传统检索方式都是基于图片和视频的标题或关键字,也就是说即便视频在讲述中国历史,当将其命名为“美国历史”,那么在后续检索中国历史时就不会出现这个视频。但当采用自然场景下的文本检测识别,可以通过识别到的场景内相关文本,推测出视频的内容,从而将视频重新进行分类,有效提升检索的准确度。(3)智能驾驶无人驾驶的关键是车载传感器能否对周围自然场景有准确的感知,当采用自然场景下的文本检测和识别,可以通过识别到的场景内的相关文本,推测出周围道路和障碍物信息,从而控制车辆的方向,速度,达到车辆驾驶的可靠和安全。

综上所述,自然场景下的文本识别和检测是众多技术实现的基础,对其的研究对于推动其他项目发展具有至关作用。

2.国内外研究现状分析相比于文档图像一类背景简单,字体清晰的文本识别,ocr技术已经可以很好地处理,但自然场景下文本检测具有更多挑战。自然场景中某些物体局部图像与字母形状相似,如果不参考图像全局信息将有误报;有些艺术字体使用了弯曲的文本行,而手写字体变化模式也很多,更不用提复杂环境带来的诸多不确定性。随着深度学习领域的不断突破,众多国内外优秀企业和实验室都对自然场景文本识别相关课题进行了深入的研究,提出了非常多的算法模型。黄伟林等人提出了ctpn模型,将文本检测任务转化为一连串小尺度文本框的检测,利用rnn和cnn的无缝结合以提高检测精度,但其弱项在于对除水平或微倾斜的文本检测效果不佳;后又提出text alignment layer,用网格抽样方案处理多方向的文本区域,将文字检测和识别整合到一个端到端的网络中,检测使用pvanet,识别使用rnn,其中加入text-alignment layer和字符attention和mask机制,这个方案使得一些小的文字和大幅度倾斜的文字都能很好的被识别到。jaderberg等人使用stn对图像进行空间变换,输出一张纠正后的图像,使得模型具有空间不变性;bartz等人提出了stn-ocr模型,使用单个神经网络可以将检测和识别集成并共同学习,实现端到端的系统优化;针对多方向检测文本,白翔等人提出了crnn模型,把cnn和rnn联合训练实现端到端训练,利用ctc和前向后向算法求解最优的label序列,这个方案性能好,而且模型小,是目前较为流行的文本识别模型。liao等人提出了一种新思路,使用三维虚拟环境产生场景的文本数据,包括透视,光照,遮挡等多种变化,可用于训练更鲁棒的文本检测模型;gao等提出一种渐进式矫正网络,可将形状不规则文本矫正至水平规则,对提高文本识别精确性有很大影响。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.研究基本内容,目标,拟采用的技术方案及措施本课题对深度学习的基础理论,网络结构等方面进行研究,通过研究从图像输入到文本序列识别过程中各个阶段的原理,以及对深度学习的自然场景文本识别相关算法的学习,最后理论与现实相结合,采取合适的网络结构,搭建系统框架,实现一个识别成功率较高的基于深度学习的自然场景下的文本识别系统,进行自然场景下文本识别工作。

实现一个基于深度学习的自然场景下的文本识别系统有两个模块,分别是文本检测和文本识别。

文本检测是指针对图片中的文本信息进行检测和定位,找到图片中文本的位置。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第一阶段(2020/1/13---2020/2/28)查阅相关文献资料、进行课题选择, 完成外文翻译并填写开题报告。

第二阶段(2020/3/1---2020/4/30)进行系统设计、编码,实现系统模块的基本功能,完成系统设计与功能测试。

第三阶段(020/5/1---2020/5/25)进一步收集、整理和分析资料,撰写论文,形成初稿,交由指导老师审阅。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]tong he, zhi tian, weilin huang, chunhua shen, yu qiao, and changming sun. an end-to-end textspotter with explicit alignment and attention. in cvpr, pages 5020–5029, 2018.2[2]b. shi, x. bai, and c. yao. an end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. tpami, 39(11):2298–2304, 2017. 1, 2[3]m. jaderberg, k. simonyan, a. zisserman, and k. kavukcuoglu.spatial transformer networks. in nips, 2015[4]c. bartz, h. yang, and c. meinel. stn-ocr: a single neural network for text detection and text recognition. corr, abs/1707.08831, 2017. [5]zhi tian, weilin huang,tong he,pan he,and yu qiao.detecting text in natural image with connectionist text proposal network. in eccv,2016

[6]zhou xinyu,yao cong,wen he,wang yuzhi.east: an efficient and accurate scene text detector.in cvpr,2017.7

[7]c. yao, x. bai, w. liu, y. ma, and z. tu. detecting texts of arbitrary orientations in natural images. in computer vision and pattern recognition (cvpr), 2012 ieee conference on, pages 1083– 1090. ieee, 2012. [8]c. yao, x. bai, and w. liu. a unified framework for multioriented ext detection and recognition. ieee transactions on image rocessing, 23(11):4737–4749, 2014[9]c.-y. lee and s. osindero. recursive recurrent nets with attention modeling for ocr in the wild. in proceedings of computer vision and pattern recognition (cvpr), pages 2231–2239, 2016.[10]wei liu, chaofeng chen, and kwan-yee k.wong. char-net: a character-aware neural network for distorted scene text. in aaai, 2018. 3

[11]d. bahdanau, k. cho, and y. bengio. neural machine translation by jointly learning to align and translate. corr, abs/1409.0473,2014.

[12] l. neumann and j. matas. real-timescene text localization and recognition. in cvpr, 2012

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。