文献综述(或调研报告):
票据自动处理系统是在OCR识别技术的基础上发展起来的,它是模式识别的一个传统研究领域。目前在国内,OCR识别技术已经在税务、金融、保险等票据处理领域得到广泛的应用。例如,汉王银行票据自动识别系统可以自动对银行票据中的信息进行提取并高精度、高效地识别票据上的手写数字和印刷体数字。在国外,像日本、美国、加拿大等发达国家对OCR识别技术的应用做了深入的研究,例如MIT大的PROFIT实验室、Mitek Systems公司的CheckQuest等研究团队。
发票识别的图像预处理工作可分为灰度化、二值化、降噪和图像校正。
对于图像灰度化,彩色图像的灰度化,可以采用颜色分量加权和的全局映射,进行彩色到灰度的变换[1]。根据彩色像素在不同颜色分量的统计信息,自动生成各颜色分量的灰度化权重,同时结合主客观图像质量标准,探索自适应的全局映射灰度化算法。
对于图像二值化,Otsu算法[2]是基于聚类的二值化算法。该算法通过寻求一个阈值,通过这个阈值是的前景和背景两个类的类间方差达到最大值。设为前景的累积概率,为背景的累积概率,为灰度图像的亮度, 为前景的亮度,为背景的亮度,则最佳阈值有:
(3-1)
(3-2)
Sauvola提出了一种自适应的文档图像二值化算法[3],将每这张图象视作文字、背景和图像等子成分构成的集合.该算法可以处理由噪声、光照等等严重劣化情况有很好的自适应表现。在灰度值图像中,以像素点问中心的局部邻域窗口,设中的亮度为,中的对比度为,则计算出像素点处的自适应阈值为:
(3-3)
其中,偏差常熟k取0.5,常数R取128。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。