1. 研究目的与意义、国内外研究现状(文献综述)
自2019年12月湖北省武汉市爆发新型冠状病毒感染肺炎(简称“新冠肺炎”)以来,新冠肺炎疫情肆虐全球多个国家,成为威胁全球群众安全和社会稳定的重大公共卫生事件。虽然在国家政府的领导和全国人民的团结努力下,我国取得了疫情防控战的全面胜利,但我们仍需要对于新冠状病毒疫情有着更加科学全面的认识,以改进疫情防控措施,应对新的疫情防控工作需要。若要提高对新冠肺炎疫情认识的整体水平,就必须首先对新冠肺炎疫情的数据、信息进行全面的挖掘、整理和分析,其中首要任务则是对面向新冠肺炎疫情文本的词性语义知识进行相对准确的获取,从而实现高精度的词性标注。在基于新冠肺炎疫情文本的研究中,词性分析的精度直接影响着后续工作如信息抽取、知识挖掘、知识图谱构建、疫情应对策略获取等过程的整体表现。
国内目前还未构建面向新冠肺炎疫情的大规模语料库和知识库,相关的文本数据也相对缺失,因而数据科学领域对新冠肺炎疫情的研究暂时比较缺少。列举当前比较有代表性的研究如下。为探索新型冠状病毒研究现状、热点问题和变化趋势,令娟等[1]利用数据可视化软件对大量国内外新型冠状病毒文献的作者、发表机构、关键词进行网络聚类分析,评估了当前国内外新型冠状病毒主要研究团体及其合作关系、热点问题和拓展方向。为向疫情防控人员预测疫情扩散速度、评估疫情等级提供参考,徐小可等[2]从武汉市外流入口的地理去向入手,分析了离汉人口的数量和动态特征,对正常和疫情年份的人口流动情况进行对比,并探讨武汉外流人口对疫情扩散的影响。为探究中医药组方用药规律,王登等[3]对全国各省市的中医药预防方案中的多味高频药物进行聚类分析,并通过关联规则算法分析出药材间的网络组合,讨论不同药物组方对病症治疗的作用。当前数据科学领域有关新冠肺炎的研究中,以结构化数据或小规模非结构化数据的探究为主,对于新冠肺炎疫情相关文本词性语义知识自动获取这一任务还处于待探究的阶段。
词性标注是自然语言处理领域重要的基础性工作,对于词法分析、句法分析、语义分析等过程有很大的影响。词性标注的目标是根据制定的词性标注集合和标注规则,对给定的文本中的每一个词加上标注。中文词性标注的难点在于对兼类词和缺失词的词性识别。目前,词性标注的方法大概可分为三类:
2. 研究的基本内容和问题
本课题的研究目标如下:
由于目前国内缺少词性标注语料库,本课题的研究目标是构建经过词性标注的新冠肺炎疫情语料,使用深度学习模型进行训练,从而实现一个面向新冠肺炎疫情的自动词性标注系统。
本课题拟解决的关键问题如下:
3. 研究的方法与方案
研究方法:
深度学习方法通过搭建神经网络模型,在数据集上进行训练,最终运用模型训练
的参数输出期望的标注序列。本课题拟采用多种深度学习模型对面向新冠肺炎疫情的词性语义知识自动获取展开研究。并对比不同模型的训练时间、准确率等性能差异。
4. 研究创新点
词性标注是构建面向新冠肺炎疫情的大规模语料库和知识库最重要的任务,本课题使用深度学习模型对以标注的模型进行训练,最终得到一个高准确率的自动标注工具,可以用于快速、准确地构建语料库和知识库。
5. 研究计划与进展
2020.03.20-2020.04:10:语料整理与标注
2020.04.10-2020.05.10:进行深度学习模型训练
2020.05.10-2020.05.20:准备答辩材料、撰写论文
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。