基于Tesseract的身份证信息识别软件的设计与实现开题报告

 2021-08-14 02:40:16

1. 研究目的与意义(文献综述)

证件识别在生活的各个实名制场合均必不可少,而身份证作为一个非常重要的身份信息载体,在实际生活中的使用更是异常频繁。过去的政府和商家一直以纸质复印件的形式保存身份证信息,而身份证号则通过手工摘录的方式记录。在人口流动性越来越大、消费行为越来越多的今天,人工处理方式、纸质文件的存放方式极大的限制了工作的效率。

利用ocr(光学字符识别)技术可以通过扫描或拍摄的证件图像快速有效地识别身份信息,但在电子商务异常发达的今天,中小企业在面对商业识别引擎使用和维护的高昂费用时,不得不继续使用身份证复印件、手工录入的方式来存储顾客和员工身份信息。

tesseract-ocr[1]是当前开源社区最著名的ocr识别引擎,支持六十多种语言并支持字库训练[2]。其使用c 语言编写,可以以dll动态链接库的形式被其他语言和应用引用来调用tesseract内部方法。这使得二次开发的成本大大降低,也有效地降低了企业成本开销。但对于中英文混合排版的身份证,如何正确有效的识别仍然是一个值得研究和探寻的课题。在此之外,也需要寻找更直观的方式来展示身份信息,并提供搜索功能以提升工作效率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

一、研究基本内容

1)适合中国大陆第二代身份证的图像预处理算法研究

在身份证图像预处理[9]部分需要做出四个部分的处理分别是灰度化、二值化、去噪声、倾斜校正四个过程。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1月11日-1月22日

  • 查阅参考文献,明确选题
1月23日-3月7日
  • 进一步阅读文献,并分析和总结
  • 确定技术路线
  • 完成并提交开题报告
3月8日-3月10日
  • 安装编译完成tesseract-ocr源码部署emgucv环境为后续正式开发做准备。

3月11日-4月1日
  • 学习图像处理算法。

  • 测试emgucv内部的图像处理算法效果。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献(12篇以上)

    [1] Smith R. An Overview of the Tesseract OCR Engine[C]. International Conference on Document Analysis Recognition. 2007:629 - 633.[2] Patel C, Patel A, Patel D. Optical Character Recognition by Open source OCR Tool Tesseract: A Case Study[J]. International Journal of Computer Applications, 2012, 55(10):50-56.[3] 毛星云,冷雪飞. OpenCV3编程入门[M]. 电子工业, 2015.[4] Deselaers T, Gass T, Heigold G, et al. Latent log-linear models for handwritten digit classification[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(6): 1105-1117.[5] Desai A A. Gujarati handwritten numeral optical character reorganization through neural network[J]. Pattern recognition, 2010, 43(7): 2582-2589.[6] Pal U, Roy P P, Tripathy N, et al. Multi-oriented Bangla and Devnagari text recognition[J]. Pattern Recognition, 2010, 43(12): 4124-4136.[7] Bataineh B, Abdullah S N H S, Omar K. An adaptive local binarization method for document images based on a novel thresholding method and dynamic windows[J]. Pattern Recognition Letters, 2011, 32(14): 1805-1813.[8] Pltz T, Fink G A. Markov models for offline handwriting recognition: a survey[J]. International Journal on Document Analysis and Recognition (IJDAR), 2009, 12(4): 269-298.[9] 李蔓华,殷瑞祥,陈昌虎.身份证信息识别的预处理[J].汕头大学学报(自然科学版),2003,02:57-61.[10] Shi S. Emgu CV Essentials[M]. Packt Publishing Ltd, 2013.[11] 杨玉科,何小海,吴炜,徐锐义.中文名片识别系统[J].成都信息工程学院学报,2008,01:21-24.[12] 李蔓华,殷瑞祥,陈昌虎.身份证信息识别的预处理[J].汕头大学学报(自然科学版),2003,02:57-61.[13] 池浩.一个基于Tesseract OCR Engine的Wrapper的设计与实现[J].科技传播,2011,23:199.[14] 程育恒.基于Tesseract开源OCR引擎的证件识别系统的设计与实现[D].东华大学,2014.[15] Omee F Y, Himel S S, Bikas M A N. A Complete Workflow for Development of Bangla OCR[J]. International Journal of Computer Applications, 2012, 21(9):1-6.[16] 刘峰,石跃祥.一种身份证图像倾斜校正算法[J].科技信息,2014,10:4-5.[17] 刘齐跃, 边立娴, 赵永凯. 关于文字识别中两种倾斜校正算法的比较研究[J]. 中国科技博览, 2013 (15): 211-212.

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。