1. 研究目的与意义
随着计算机技术和通信网络技术的快速发展,人类社会正在加速进入信息化时代,但是目前人们的许多信息都是记录在纸上的字符和数字,将这些信息人工的录入系统再调用是一件非常复杂且效率低下的工作。近年来ocr(optical character recognition)技术以及深度学习的不断发展,人们对于这些识别的要求不断增加,本文就以应用于购物小票的识别以及在神经网络中训练模型加以介绍。
购物小票是消费者购物消费时在商场或其他商业机构给用户留存的销售凭证,它也叫做购物收据。现在除了少部分是手写的小票之外,大部分都是用机器打印出来的打印的小票如图,一般上面包含着一些以下内容:销售店铺名称、店铺电话、店铺地址、收银员、收银员及编号、销售日期、商品明细、单价、数量、金额、总计、付款方式、优惠方式、实收金额、找零金额、会员号码以及一些其他内容。
大家应当都知道不同超市的购物小票都有属于自己的打印方式和排序,这便导致市面上有各种种类繁多的购物小票,要对他们进行快速、有效地识别并不是一件简单的事情。并且因为有些超市打印的购物小票的纸张质量差或者油墨不清晰会使得打印出的效果并不是很好。同时在人们平常生活中,人们还没能充分的认识到购物小票的价值,不能够妥善的保存,致使小票上出现各种褶皱或者破损,这些都会给识别带来许多困难。因此,将超市购物小票作为研究对象还是具有一定的研究价值。
2. 研究内容和预期目标
研究内容
(1)首先是了解ocr识别的基本概念以及如何实现ocr识别。
(2)分析现有的深度学习框架进行命名实体识别方法,研究命名实体识别系统在多领域问题上识别率不高的原因,提出基于语义分析和神经网络的命名实体识别框架。
3. 研究的方法与步骤
研究方法:
(1)查阅相关深度学习和实体识别的资料,找到的资料和论文,对本课题的背景有一个大致的了解。
(2)学习基于深度学习方法进行命名实体识别的相关技术及算法。
4. 参考文献
[1]周志华,机器学习[m],清华大学出版社,2016.
[2]江大鹏,基于词向量的短文本分类方法研究[d],浙江大学,2015.
[3]江会星,汉语命名实体识别研究[d],北京邮电大学,2011.
5. 计划与进度安排
1.2022年2月26日-2022年3月5日,有针对性的学习课题相关资料,学习相关学科的基础知识,学习实验所需软硬件的相关知识。
2.2022年3月6日-2022年3月20日,设定实验方案,采集实验数据。查阅资料,撰写并提交开题报告。
3.2022年3月21日-2022年4月25日,进一步理论分析,进行实验,开发相关软硬件系统。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。