基于Tessearc驾照识别系统的研究与实现开题报告

 2021-08-14 02:29:31

1. 研究目的与意义(文献综述)

随着移动互联网时代的到来,以及社交网络的迅速发展,图片逐渐成为了互联网中的主要信息载体,原因有两点:第一,相比于文字,图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息;第二:智能手机为人们带来了方便的拍摄和截屏手段,帮助人们更快的用图片来采集和记录信息。但是问题随之而来:当图片上包含了很多无规则排版的文字信息的时候,如何将有用的文字信息从图片中提取出来并按规则排版并存储起来呢?ocr就可以解决这个难题。

ocr(opticalcharacter recognition)又叫做光学字符识别,是指对文本资料的图像文件进行分析识别处理并获取文字及版面信息的过程。ocr的概念在1929年由德国科学家tausheck最先提出来,并申请了专利,后来美国科学家handel也提出了利用技术对文字进行识别的想法。早在60、70年代,世界各国就开始有ocr的研究,中国起步较晚,对ocr的研究在70年代才开始兴起。不过到现在为止,ocr技术已经趋于成熟。ocr识别的过程包括:图像输入和预处理;二值化;噪声去除;倾斜校正;版面分析;字符切割;字符识别;版面恢复;后处理、校对。

tesseract是一个适用于各种操作系统的光学字符识别引擎。tesseract引擎最初是在英国bristol的惠普实验室和1985年到1994年间的美国科罗拉多greeley的惠普公司开发,到1995年时已经成为ocr业内最准确的三款识别引擎之一。2005年tesseract被惠普公司开源,自2006年以来一直被谷歌所开发和维护。而现在tesseract的开源库已经从google code托管到了github上。tesseract的最初版本只能识别英文文本,从第二个版本开始tesseract能够处理英语、法语、意大利语、德语、西班牙语、巴西葡萄牙语和荷兰语,第三个版本的tesseract新增了对中文(简体和繁体)、阿拉伯语、希腊语、法语、日语、韩语、俄语等很多其他国家语言的支持。tesseract也可以通过训练去识别其他语言。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

一、研究内容1. 学习并掌握数字灰度化,二值化处理。

2. 学习并掌握tesseract-ocr开发包。

3. 利用tesseract-ocr开源包开发一个驾照识别系统,能够有效识别驾照图像信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2016年1月11日- 2016年1月22日

查阅参考文献,明确选题

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]万松.基于tesseract-ocr的名片识别系统的研究与实现[d].广州:华南理工大学.2014,6

[2]程育恒.基于tesseract开源ocr引擎的证件识别系统的设计与实现[d]上海:东华大学.2014,6

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。