1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义、国内外研究概况、应用前景等(列出主要参考文献)选题的目的及意义 21世纪是信息时代,随着电脑的普及以及各种电子产品的应用,经常会有人猜想电子图书或文档是否会取代纸质文档,虽然说这并不怎么现实,但是这种猜想的出现也正体现了电子文档应用的普遍性。
在现代社会中,电子信息由于其存储简单和可靠成为信息存储的主要形式,那么从纸质文档转化为电子信息的存储和识别也就十分重要了,其中表格作为信息高度集中的存储形式,它的识别更是信息识别的重中之重。
本课题在国内外的研究状况及发展趋势ocr(光学字符识别)技术是通过扫描仪等光学输入方式将各种图书、期刊、文献、档案等纸质文档转化成电子图像,并运用光学字符识别(ocr)技术分割目标图像中的待处理信息,并对其进行相应的识别[1][2]。
2. 研究的基本内容和问题
研究的目标:通过对该课题的研究,研究一种对印刷体表格有效识别的软件,为纸质文档转化为电子文档提供有效可靠地支持,能够快速有效的提取表格文档的有效信息。
采用交点特征和交点轨迹法提取表格单元,并形成闭环区域。
然后利用数学形态学的方法除去表格线,使我们可以获取表格图像中的数据信息,利用 ocr 技术完成数据的识别,并将其写入已经提取的表格框架中,完成表格图像的重绘。
3. 研究的方法与方案
实验方案:本课题将实现对印刷体文档扫描之后的表格区域的识别。
先用扫描仪扫描图像,然后对图像进行灰度化处理得到灰度位图,在对图像进行二值化处理之后进行图像的倾斜校正,然后进行表格区域的定位,至此图像的预处理完成。
用投影法与直线搜索相结合的直线检测法进行表格线的检测,检测到表格线之后,进行表格线细化和校正,利用光学字符识别系统(即 ocr)完成表格内信息的识别,最后将所有的文本信息整理,并写入已获得的表格框架中,完成整个表格的重绘。
4. 研究创新点
创新之处:通过对该课题的研究,开发一种快速高效的识别印刷体表格文档的软件,有助于纸质文档快速可靠的转化为电子信息存储。
5. 研究计划与进展
研究计划及预期进展:第一阶段:了解确立课题阶段2015年1月1日-1月6日:了解有关表格识别方面的知识,并且确立课题,撰写开题答辩报告和幻灯片。
第二阶段:学习阶段3月1日-3月30日:学习图像处理方面的知识以及如何在matlab环境下实现第三阶段:编写代码实现阶段1) 4月1日-4月10日:在matlab上编写实现图像预处理部分的代码2) 4月11日-4月30日:在matlab上编写表格线检测校正以及重绘部分的代码,并且与前面的代码整合起来。
第四阶段:论文撰写1) 5月1日-5月10日:论文撰写并提交初稿2) 5月11日-5月15日:论文修改并定稿
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。