基于深度学习的脱机手写体文本识别开题报告

 2022-01-11 21:19:50

全文总字数:3894字

1. 研究目的与意义(文献综述)

手写文本识别是通过计算机自动识别字符的技术,分为在线识别和脱机识别:在线手写识别是通过电子笔等电子仪器收集数据进行识别;脱机手写识别是通过摄像头或扫描仪采集二维码图片之后进行识别。脱机手写识别适用于不能使用书写板等专用输入设备输入文字的场合,以及文字信息已经是以手写体的形式存在的情况。通过使用脱机手写识别,将纸质手写文档提取成一种可编辑的电子版本,这将会大大降低保存成本和提高灵活性。手写技术识别分为单个字符识别、文本行识别和文档识别。传统文字识别技术有印刷体OCR、手写体OCR、专用OCR 和笔输入技术四大类。传统的文本识别多用的是单个字符识别,先对图片进行预处理,比如图像归一化去噪等,之后进行特征提取,比如常用的Gbar,8-dir特征,传统手写体识别的核心是分类识别,常用的分类器有支持向量机,隐马尔可夫模型等。 近年来,随着深度学习的发展,脱机手写体识别也有了很大进步。例如瑞士IDSIA团队在2010年ICDAR比赛中首次将CNN带入到脱机汉字体识别,取得了92.18%的准确率。文本行识别难度比单字要高,文本行识别主要有两类:预分割,利用单字分类器进行识别,再结合上下文生成文本行;不需要文本分割直接进行文本行识别。双向长短期循环神经网络(BDLSTM-RNNs)是对文本行识别的一种有效方法,此外还有基于全卷积回归神经网络的文本行识别方法。 而文档的整篇识别,有Bluche提出的基于attention机制的文本行识别方法,还有基于RPN(Region Proposal Network)检测、版面更正、CRNN(CNN RNN)的方法。Blchue在论文中 ,提出一种改进的MDLSTM-RNNs(multi-dimensional long short-term memory recurrent neural networks)进行文档的整篇识别,在训练的过程中可以将attention模块得到 的全部文本组成一行,并用attention机制 关注文本行完成识别。该方法的优点是无需显式行切分,同时速度比较快。缺点是文本行必须是固定长度的attention文本,且缺少停止光标。 采用基于attention机制encoder-decoder框架的方法,不需要进行文本行分离,同时克服了文本输入长度的限制。MDLSTM-RNNs方法基于encoder-decoder框架和attention机制,这可以使得识别效果更加优异。此外,这个方法可以克服不同语言阅读顺序的问题,这对于识别文本有更加有利的作用。 由于每个人的书写习惯不同,所以手写体随意性较大、字符之间可能存在粘连,给字符分割增加了难度。为了避免单个字符的分割,本 课题将基于encoder-decoder框架,采用attention 机制,实现脱机手写体文本行的识别。利用卷积神经网络,循环神经网络等深度学习算法对文本建模分析。过程中将系统学习涉及的深度学习基础内容,同时大量阅读文献,从前人的基础上获得启发以便获得更好的结果。

2. 研究的基本内容与方案

① 基本内容本课题的主要研究目的是实现脱机手写体识别,采用文档的通篇识别来解决划分文本行困难。拟从下面几个方面进行研究:(1)首先介绍脱机文本识别的研究背景和意义。(2)之后拟介绍相关的理论基础,包括循环神经网络、encoder-decoder框架和attention机制等。(3)拟将实现的方法应用于数据集IAM,并与文献报道的结果作比较。(4)拟分析该方法的优缺点,包括识别的正确率和训练的效率等。② 目标能够根据IAM英文数据集进行训练,快速准确的识别手写文本。通过对一些手写体文本资料的识别,减少人工输入的成本。③拟采用的技术方案及措施拟采用文献分析和实证研究相结合的方法来完成脱机手写体识别,具体如下:(1) 搜集和查阅大量国内外学者关于手写体识别的研究,从前人的成果中获得启发。(2)拟采用python语言,使用pytorch库进行深度学习的编程实现,使用GPU作为训练引擎,使用IAM作为数据集。课题采用的脱机手写文本端到端识别模型基于encoder-decoder框架和 attention机制。建立好模型后进行数据训练,这个过程不断优化参数使得识别结果较好,之后进行实际书写的测试环节,进行大量的手写文本测试。

3. 研究计划与安排

(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告; (2)2020/3/1—2020/4/30:系统架构、程序设计与开发、系统测试与完善; (3)2020/5/1—2020/5/25:撰写及修改毕业论文;(4)2020/5/26—2020/6/5:准备答辩。

4. 参考文献(不低于12篇)

[1]王馨悦. 离线中文手写体识别研究[d].中国科学技术大学,2019.

[2]周圣杰. 基于深度注意力机制的手写文本识别与翻译方法研究[d].哈尔滨工业大学,2019.

[3] doetsch p , zeyer a , ney h . bidirectional decoder networks for attention-based end-to-end offline handwriting recognition[c]// 2016 15th international conference on frontiers in handwriting recognition (icfhr). ieee, 2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。