全文总字数:5465字
1. 研究目的与意义(文献综述)
在生活中,我们每天都通过自己的双眼接受到大量的图像信息,例如电器标签、购物发票、张贴的海报等等,而往往我们所关注的就是这些图片里面的文字信息。随着人类科技技术的进步,人类可以通过各种各样的数码设备去获得图像,并且保存和传播图像。对于那些蕴含着文字信息的图像,如果单纯以人眼去一张张观察以读取其中的文字,无疑是十分低效的。因此,人类需要知道如何利用计算机来自动而且智能地分析图像,并且提取出其中的文字,对图像做出直观明确的解释。传统的ocr技术可以用于图像中的文本提取,准确率也较高,然而它需要图像中文字非常的规整,背景与文字的可分开性高,它并不适合用于从自然场景图像中提取文字信息。根据自然场景图像的特点,本课题采用目前广泛研究的深度学习方法,从文字检测和文字识别两个方面着手,进行复杂场景下基于ctpn的离线文本快速检测技术研究。
复杂场景中的文本检测技术有许多的用途,其应用大致有以下几个方面:
(一) 商品搜索系统
2. 研究的基本内容与方案
以深度学习神经网络来构建具有特征学习能力的文字识别端到端模型为研究出发点,研究基于 ctpn 的文字检测算法,ctpn是一个基于 cnn和 rnn 结合的检测算法。
ctpn利用cnn卷积操作提取图像特征。卷积神经网络(convolutional neuralnetwork,cnn)是一种前馈型的神经网络,相比于其他神经网络结构,卷积神经网络需要的参数相对较少,使得其能够广泛应用。依靠卷积、池化、局部感知等特点提取深度特征,在自动驾驶、语音识别和字符识别等方面取得了令人瞩目的发展。卷积池化的过程主要是有效地从数据中进行特征提取,并进行数据降维处理;局部感知的数据处理方式能够让网络的结构有所简化;其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。因此当输入为自然场景图像时,使用卷积神经网络的长处更为鲜明。使用cnn时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络在结构上分为三层:卷积层(convolution layer)、池化层(pooling layer)、全连接层(fully connection layer,简称 fc)。
ctpn利用rnn对字符序列进行特征识别。全连接神经网络和卷积神经网络只能单独的去处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,文字检测任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。因为当我们在理解一句话意思时,孤立地理解这句话的每个字是不够的,我们需要处理这些字连接起来的整个序列。这时,就需要用到深度学习领域中另一类非常重要神经网络:循环神经网络(recurrent neural network,rnn)。 rnn之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。长短期记忆网络(long short-term memory,lstm)是rnn的一种变体,rnn由于梯度消失的原因只能有短期记忆,lstm网络通过精妙的门控制将短期记忆与长期记忆结合起来,并且一定程度上解决了梯度消失的问题。双向lstm是传统lstm的扩展,可以提高序列分类问题的模型性能。在输入序列的所有时间步长可用的问题中,双向lstm在输入序列上训练两个而不是一个lstm。输入序列中的第一个是原样的,第二个是输入序列的反转副本。这可以为网络提供额外的上下文,并导致更快,甚至更充分的学习问题。使用双向lstm能够更好的处理文本这类序列的信息,因为如果我们在理解一句话意思时,既阅读了前文,又阅读了后文,那么我们对这句话的理解比单纯的从前文看下来会更加清楚。双向lstm就是基于这么一种想法从而应用在ctpn中进行文本序列检测。
3. 研究计划与安排
第1周—第3周搜集资料,撰写开题报告;
第4周—第5周论文开题;
第6周—第11周撰写论文初稿;
4. 参考文献(12篇以上)
[1]israel da silveira rego.detection and reading out ofscene text images[j].international journal of instrumentation science andengineering,2017,7(1):81-86.
[2]you, mingyu,shen, chunhua,li, hui, et al.reading carlicense plates using deep neural networks[j].image and vision computing,2018,72(apr.):14-23.
[3]sun, lei,huo, qiang,jia, wei, et al.a robust approachfor text detection from natural scene images[j].pattern recognition: thejournal of the pattern recognition society,2015,48(9):2906-2920.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。