全文总字数:6171字
1. 研究目的与意义(文献综述)
ocr全称为optical characterrecognition,即光学字符识别,通常意义上,指的是通过通过光学设备采取图像信息,利用字符识别,转换成人和计算机能够识别和处理的文本信息的过程。文字是人类文明的载体,在过去我们的信息通过书籍和报纸进行传播,而如今随着科技的不断发展,文字载体也已然发生了变化,现如今我们可以通过手机电脑对电子书籍进行传播。过去的纸质文件有着其自身的缺点,纸质文件容易丢失,保存的时间不长,不方便远距离传输。将纸质文档通过光学字符识别,转化成我们更容易保存,更容易传播的存储资源,更有利于我们对信息的筛选和学习。通过光学文字识别,能够将人从繁重的手工劳动解放出来,比如现在的身份证识别,书籍扫描,名片识别等等。在过去需要人工识别的过程,现在全通过更高效更迅速的计算机处理,从而促进生产力的提高。
光学文字识别的概念是上个世纪二十年代德国科学家tausheck最先提出的。而对于纸质文档中汉字的识别,最早在上个世纪六十年代由美国ibm公司的casey和nagy提出,他们率先发表了利用模板匹配法技术识别汉字的论文。我国对于ocr的研究,起步较晚,但发展较快,直到七十年代末期才开始对汉字识别进行研究。
在ocr处理的整个流程中,主要分为预处理,检测和识别。ocr算法在ocr处理过程中起着至关重要的一部分,除却算法本身,图像质量是影响ocr识别准确率的最大因素,所以图像预处理在整个环节中充当着较为重要的一环。在著名的开源ocr项目tesseract项目中,有着这么一段话:“你应注意的是,在许多场景下,为了得到更好的ocr处理结果,你应该提高输入tesseract系统的图像质量”。通常来说,一般由三个方面来衡量图像的质量:倾斜,清晰度,扭曲。如何使扭曲的文字变的平整,如何将图像上的噪点去除,从而改善文字图像的ocr识别准确率,为ocr的检测与识别保驾护航。
2. 研究的基本内容与方案
整个神经网络字符识别的过程可以分为图像预处理,图像分割,图像特征提取,神经网络训练和字符识别等各个阶段。图像输入识别系统之前,需要经历的预处理过程有降噪,归一化和压缩,图像预处理是字符识别最重要的步骤之一,预处理的主要目的就是为了得到干净整洁的图像,提高整体的识别准确率。图像采集的过程中可能具有不同来源的噪声,为了消除这些噪声,必须进行降噪处理。
平滑图像可以有助于提取出目标区域,更好的识别像素点。平滑过程就是通过将某一区域周围像素点通过局部平均值修改。图像平滑可以通过许多算法来完成,平滑通常可以通过直方图完成,除此以外,也可通过多种滤波器来完成。
锐化目的是为了增强目标区域字符的边缘和突出细节,为了提高原始图像的锐度,可以通过添加高通滤波器来完成。
3. 研究计划与安排
第1周—第3周搜集资料,撰写开题报告;
第4周—第5周论文开题;
第6周—第11周撰写论文初稿;
4. 参考文献(12篇以上)
[1] 黄泽涛.基于字符的文档图像方向矫正研究.天津师范大学.2019
[2] 孙楠,刘志文.一种改进的中文文档图像倾斜检测方法.北京理工大学.2006
[3] 李政,杨扬,颉斌,王宏.一种基于hough变换的文档图像倾斜纠正方法.北京科技大学.2005
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。