1. 研究目的与意义(文献综述)
随着计算机科学技术的发展,如何高效的输入中国汉字己经成为中国的字符信息处理系统的瓶颈难题,而且汉字发展历史悠久,字体繁多,不同字体之间的形态各有差异。基于笔画的手写汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它涉及到模式识别、图像处理、人工智能、形式语言与自动机、中文信息、组合数学、模糊数学、信息论、处理等学科,也涉及到心理学、语言文字学、仿生学等,基于笔画的手写体汉字识别是汉字识别的一个重要分支,是模式识别和人工智能的一个不可缺少的范畴。
由于手写体汉字字型结构比较复杂、相似字较多、字符集大、以及字形变化较大等因素,所以手写体汉字识别与以往汉字识别技术不同,具有其特殊性。脱机手写体汉字识别虽然经过了几十年的研宄,但它仍然是汉字识别领域的一个富有挑战性的难题。
目前,基于笔画的手写汉字识别技术已经取得了飞速的进步并得到了比较好的识别效果,在实时性和正确率这两方面的识别基本能够满足用户的需求。比如在自动阅读邮件地址、处理银行支票和账单等这些特定的应用领域中,识别技术也已经取得了骄人的效果。
2. 研究的基本内容与方案
把手写体样本汉字的笔画作为特征存储到模板库中从而建立笔画模板库,接着训练笔画模板库,然后将每一个待识别手写体样本汉字与系统的笔画模板库进行匹配比对,并计算待识别手写体样本汉字与模板库中每个汉字的组合距离,选取其中最小距离进行分类识别。对比匹配、松她匹配和结构匹配这些都是汉字的匹配识别方法。除此这外还有各种神经网络分类器和最小距离分类器等识别方法。分类器的使用和匹配方法的选择不是一个孤立存在的过程,需要适应系统选择的识别特征,使它们能够最大程度地发挥识别的准确性和有效性。脱机手写体中国汉字识别的第一步就是预处理手写体汉字输入图像,预处理是特征提取和字符识别的基础。在输入过程中,由于原始图像很容易产生噪点等问题,所以汉字图像需要进行预处理来修复和优化。
这次基于笔画的手写汉字识别设计的基本内容包含了四个模块:手写汉字获取模块,预处理模块,笔画特征提取和特征分析模块,结果匹配模块和标准汉字模板库模块。数据的获取通常是采用现有的汉字库;预处理模块基本上需要使用平滑去噪、大小位置归一化和二值化,还使用了字符切分、倾斜校正;特征提取和选择模块主要是要选择合适的特征描述签名并将签名图像转化为一组特征矢量;匹配模块主要是将需要鉴别的手写汉字的特征矢量与标准模板库中相应的特征矢量进行比较,并产生相似度值,然后与事先给定的阈值比较来确定该汉字是否是匹配的;标准汉字模板库的产生通常由用户注册过程完成。其系统框图如下图:
3. 研究计划与安排
第1-3周:查阅关于手写汉字识别的相关文献资料,明确研究内容,了解研究所需的相关知识,完成不少于2万字符的英文翻译。确定方案,完成开题报告;
第4-8周:学习几种基于笔画的手写汉字识别方法并评测其方法的可行度,逐步实施设计方案,完成程序的设计;
第9-10周:对设计的方法进行实验,根据实验结果改进程序的设计;
4. 参考文献(12篇以上)
[1]r.k.bharathi,r.k.bharathi,offlinesignatureverificationbasedonchaincodehistogramandsupportvectormachine,frontiersinhandwritingrecognition(icfhr),internationalconferenceon,pp.786-790,2012
[2]v.nguyen.,m.blumensteinandg.leedham.globalfeaturesfortheofflinesignatureverificationproblem,in10thinternationalconferenceondocumentanalysisandrecognition,pp.1300-1304,2009.
[3]扬丹凤,吕岳.方向特征和网格特征融合的离线签名鉴别[j].中国图象图形学报,2012,17(6):717-72l
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。