1. 研究目的与意义
1.1 研究的背景 随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降 维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要
1.2 研究的目的及意义 从传统的Textrank抽取式,到深度学习中采用RNN、CNN单元处理,再引入Attention、Self-Attention、机器生成摘要的方式,这些跟人类思维越来越像,都建立在对整段句子的理解之上。与此同时生成摘要的效果,也常常让我们惊艳。但文本摘要自动生成依然还有很多难题,比如如果段落太长,那么机器对段落的理解时间就要很长,而过长的时间会导致机器对段落信息的记忆的损失。而且深度学习非常依赖有标签的样本,标注工作也是一笔非常大的开销。 当前图神经网络的研究十分火热,利用图神经网络,对于中文长文本的摘要,也许会有意想不到的突破。
|
2. 研究内容和预期目标
2.1 研究内容
本课题涉及的主要研究内容包括如下几个部分:图神经网络、文本摘要。
(1) 图神经网络
3. 研究的方法与步骤
3.1 研究方法
本课题研究图神经网络对于中文长文本的摘要能力,训练图神经网络,对中文长文本进行摘要。因为当前对于中文短文本的研究较为成熟,本课题先对中文短文本数据集进行训练,得到训练出的模型,使用rouge评价指标对其进行打分,对比别人的分数。然后将中文长文本放在此模型上观察效果。之后,再将数据集换成中文长文本,得到新的训练出的模型,观察rouge分数,与短文本训练出的模型进行对比。再与传统机器学习模型进行比对,分析图神经网络的优缺点。
3.2 研究步骤
4. 参考文献
[1] 陈勤,自然语言处理基本理论和方法[m],哈尔滨工业大学出版社,2013.08.
[2] chris manning/hinrich schütze 著,苑春法/李伟/李庆中 译,统计自然语言处理基础[m],电子工业出版社,2005.12
5. 计划与进度安排
[1] 2022.1.5----2022.3.15 查阅资料, 撰写开题报告
[2] 2022.3.15----2022.4.1 制定研究方案
[3] 2022.4.2----2022.5.1 编写代码及设计,程序调试
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。