1. 研究目的与意义(文献综述)
1.1研究目的及意义
词是“最小的能独立运用的语言单位”,由于中文具有大字符集连续书写的特点,如果不进行分析,计算机则无法得知中文词的确切边界,从而很难理解文本中所包含的语义信息。因此,中文分词是自然语言处理的一个关键的基础技术,是其他中文应用,例如,命名实体识别、句法分析、语义分析、机器翻译、信息检索等得前期文本处理关键环节。
以“文综”为代表的基础教育资源,蕴含了丰富的知识。对于汉语基础教育资源,具有很多领域概念,其出现的频次较低,利用传统的方法容易造成训练不足,也非常有可能过拟合。因此研究面向中文,特别是具有明显汉语特点的基础教育资源的分词技术,对于服务全球最大语言人群,具有重要意义。
2. 研究的基本内容与方案
2.1 目标(开发的系统概况描述)
本课题是以分词为主要目标,使用深度学习技术,重点完成字向量的转换、神经网络的训练和特征优化并提高基础教育领域文本识别成功率,建立一个可以对未标注语料、自然文本进行自动分词的系统。
2.2 基本内容
3. 研究计划与安排
第1—3周:查阅相关文献资料,明确研究内容,了解研究所需知识与各项技能。确定方案,完成开题报告,书写摘要并完成相关英文文献翻译。
第4-6周:前期可行性研究,需求分析,进行系统的初步设计。
第7-12周:系统具体实现,主要完成代码的编写,调试以及功能的实现。
4. 参考文献(12篇以上)
[1]黄昌宁, 赵海. 中文分词十年回顾[j]. 中文信息学报, 2007,21(3):8-19.
[2]j. lafferty,a. mccallum, f. pereira. conditional random fields: probabilistic models forsegmenting and labeling sequence data. in international conference on machinelearning, 2001.
[3]bengio y,schwenk h, senécal j s, et al. a neural probabilistic language model[j].journal of machine learning research, 2003, 3(6):1137-1155.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。