基于深度学习的基础教育领域分词方法开题报告

 2021-08-14 02:14:39

1. 研究目的与意义(文献综述)

1.1研究目的及意义

词是“最小的能独立运用的语言单位”,由于中文具有大字符集连续书写的特点,如果不进行分析,计算机则无法得知中文词的确切边界,从而很难理解文本中所包含的语义信息。因此,中文分词是自然语言处理的一个关键的基础技术,是其他中文应用,例如,命名实体识别、句法分析、语义分析、机器翻译、信息检索等得前期文本处理关键环节。

以“文综”为代表的基础教育资源,蕴含了丰富的知识。对于汉语基础教育资源,具有很多领域概念,其出现的频次较低,利用传统的方法容易造成训练不足,也非常有可能过拟合。因此研究面向中文,特别是具有明显汉语特点的基础教育资源的分词技术,对于服务全球最大语言人群,具有重要意义。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1 目标(开发的系统概况描述)

本课题是以分词为主要目标,使用深度学习技术,重点完成字向量的转换、神经网络的训练和特征优化并提高基础教育领域文本识别成功率,建立一个可以对未标注语料、自然文本进行自动分词的系统。

2.2 基本内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1—3周:查阅相关文献资料,明确研究内容,了解研究所需知识与各项技能。确定方案,完成开题报告,书写摘要并完成相关英文文献翻译。

第4-6周:前期可行性研究,需求分析,进行系统的初步设计。

第7-12周:系统具体实现,主要完成代码的编写,调试以及功能的实现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]黄昌宁, 赵海. 中文分词十年回顾[j]. 中文信息学报, 2007,21(3):8-19.

[2]j. lafferty,a. mccallum, f. pereira. conditional random fields: probabilistic models forsegmenting and labeling sequence data. in international conference on machinelearning, 2001.

[3]bengio y,schwenk h, senécal j s, et al. a neural probabilistic language model[j].journal of machine learning research, 2003, 3(6):1137-1155.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。