1. 研究目的与意义、国内外研究现状(文献综述)
课题意义:
随着互联网技术的迅速发展和蔓延,如何自动、高效地对新闻报道中事件的文本信息进行组织,尤其是从新闻报道事件含有信息的角度出发,及时了解我们所关心和关注的问题,对我们实时抓住相关信息,从而及时做出重要的决策,有至关重要的意义。尤其是近几年频繁发生的学术不端事件,都不同程度地造成了巨大的社会影响。因此对学术不端事件新闻文本的信息挖掘和组织显得尤为重要。目前,web网页和数据库中积累了海量的、以不同形式、不同结构存储的新闻事件文本数据资料。这些新闻文本数据资料无论是在存储结构上还是内容上都十分复杂,因此用以往的信息检索和传统的统计方法,对文本资料进行处理已经不能满足需要,它迫切要求自动、智能地将新闻事件文本资料转化为有用的信息和知识。这就需要用数据挖掘技术和自然语言处理相结合的方法对文本信息进行处理,而学术不端事件中往往涉及到学者姓名、科研机构组织名称等命名实体,因此命名实体识别工作在对学术不端新闻的挖掘中显得尤其重要。
2. 研究的基本内容和问题
研究目标:
1.总结归纳中文科技类新闻中各类命名实体的特点;
2.探寻比较中文科技类新闻中各类命名实体识别结果较理想的方法。
3. 研究的方法与方案
研究方法:基于规则的命名实体识别方法,基于机器学习的命名实体识别方法等。
4. 研究创新点
1.选择科技类新闻作为命名实体识别的文本,研究该类新闻的命名实体的特点;
2.对网络上的中文科技类新闻的信息源进行了有效的甄别筛选,选出可行度较高的信息源,并针对各个不同的网站编写了有效的爬虫;
3.使用基于规则的命名实体识别方法、基于机器学习的命名实体识别方法等,探寻最适合该类文本命名实体的识别方法。
5. 研究计划与进展
2020.-2020.3抓取所需要的中文科技类新闻数据,对抓取的数据进行数据清洗,并对数据进行人工标注;针对不同类型的命名实体选择合适的识别方法、训练模型,编写代码。
2020.3-2020.4将标注完成的数据进一步加工处理,进行训练、测试,对测试的结果进行总结分析,优化训练模型。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。