1. 研究目的与意义、国内外研究现状(文献综述)
国内外研究概况:
本课题主要涉及古籍文本的关键词抽取技术;word2vec文本分析技术等方面。
古籍文本的关键词抽取技术:该技术可以归类为中文文本的关键词抽取技术。中文文本关键词抽取技术,顾名思义,就是以中文文本为对象的关键词抽取技术。而关键词抽取技术即是利用一定的技术方法,从目标文本中抽取出可以表征文本内容的一个或多个词。关键词的个数一般根据文本大小来定,不宜超过五个。这一概念在1958年由luhn[1]隐式的提出。他在自动摘要的概念中提到了建立文档的一组重要词汇,可以看作是关键词抽取这一概念的最早的引入。基于关键词的定义性质,后来的许多学者陆续的设计了基于统计词信息的算法,如词频-逆文档频率(tf-idf)、基于图模型的textrank以及基于主题模型的潜在狄利克雷分布(lda)等等。随着计算机应用及性能的提升,机器学习、深度学习也逐渐的成为了关键词抽取技术的有利工具。关键词抽取技术一般分为两大类,即有监督和无监督学习。中文因其较为复杂的结构、性质,对抽取技术的要求也更为严格,虽然也分为有监督和无监督学习两大类,但由于有监督学习的时间成本太高,除非在特殊要求下,如今的大部分中文文本关键词抽取技术大多为无监督学习。在中文文本中,又分为现代文本、古籍文本。关于现代中文文本关键词抽取技术国内已经有了较为完善的研究体系。而有关古籍文本的关键词抽取技术却少之又少。虽然根据现有的体系方法,可以照搬到研究古籍文本中,但由于古文的多义性等特性,仍需要做出进一步的调整。中文文本关键词抽取技术可以归总为以下几类:基于统计词信息的方法,基于网络图模型的方法,基于神经网络的特征学习方法。在以上几种方法的基础上,许多学者根据需要进行了一定的调整,yongjie niu[2]在文本预处理阶段综合考虑了词语的位置、词性、词语关联性、词跨度等因素,利用主观设置的权重系数改进了tf-idf的计算公式,提升了抽取的准确率、召回率。但不足之处在于计算量大,运行时间长,且仍然无法解决分词歧义对关键词抽取的影响问题。aizhang guo[3]则考虑到了词语在文本中的分布,以及词语在文本中的分类问题,在这基础上改进了idf的计算公式,引入了文章类别的概念,提出了tfidf-ag算法,但仍然没有解决词与词之间的关联性问题,以及文本长度不定时导致的tfidf值不准确的问题;haizhou du[4]等人提出了基于上下文关系的textrank算法,选定上下文关系是指设定一个窗口,来表示该关键词左右一定范围内词语集合,并结合信息熵改进textrank算法。虽然该算法相较于原来的算法效果有所提高,但对窗口的选定较为严格,一旦选取的窗口值不当,会造成较大的偏差。xinge xiao[5]认为textrank算法仍然忽略了一些出现较少但很重要的专有名词,因此引入了基本层次范畴理论,以调整部分词语的权值,将一些很重要的词权值提高,从而提升了关键词抽取准确性的目的。但识别文本所涉及的主要范畴层级并不是一件容易的事,其精度有待提高。dandanhuang[6]将关键词抽取任务转化成序列标注问题,利用bilstm神经网络和crfs条件随机场相结合的方法实现关键词抽取。haichao zhang[7]等人同样地将crfs条件随机场模型应用于关键词抽取系统中,并定义字角色空间,将所有训练集合中提名出现的所有汉字进行统一标识形成序列,对该序列学习形成模型,从而标引出关键词。zhihong wang[8]等人考量了专利文本的语言特点,找出了专利文本与普通文本的不同特征,将word2vec融入了tf-idf算法中,构建基于词义词性的句向量表示模型,根据多特征融合的句排序模型训练,选择权重较高的几个句子,最后再经过tf-idf模型对其中的关键词抽取。也就是“关键词在关键句”中。yujun wen{9]等人将word2vec和textrank结合,提出将词与词之间的语义相似度与在共现窗口内的共现次数所占比重线进行加权来重构图中边的权重。
2. 研究的基本内容和问题
研究内容:利用一定的文本分析策略(如tf-idf、word2vec算法),结合已标注好词性的《左传》语料,及其文本特点,实现对《左传》中150余位主要人物事迹进行提取概括,并进行可视化,力求将《左传》这一编年体的史诗,以纪传体的方式表现出来。
目标:本课题的目标是通过上述方法,最终能够展示出《左传》中所有重要人物的属性特点及人物关系。
3. 研究的方法与方案
实验方法:
①实验法
4. 研究创新点
一、提出了一套较为新颖的人物属性分析方法。目前大部分的分析人物的方法是基于关键词提出的,本文则是基于属性词,结合Word2Vec算法找出相近词,进而从不同维度更加详细的阐述人物历程,更直观、准确。
二、可根据实际的使用情况,对属性表达公式、属性词的筛选方式、关键词提取的方法进行不同程度的改进,从而较为方便的得到更好的结果。
5. 研究计划与进展
第一阶段:根据《春秋左传人物谱》,对现有已标注好词性的《左传》语料进行分人物的人工录入。共计150余人。
第二阶段:语料整理及关键词抽取。根据上一步整理出的分人物语料文档,利用tf-idf模型抽取关键词。其过程为,先对所有语料做去停用词处理,后尝试调整一系列的参数、保留一定词性的词汇等方案,确定一个抽取关键词准确率最高的调整措施。
第三阶段:利用word2vec算法确定属性词。首先需要将有关战争、外交、政经、生活的动词做初步人工筛选。然后建立《左传》全文的向量模型,以用于进一步搜寻各属性词下相关的词,并记录对应权重排名。该过程中需进行一定的人工干预,如在经算法筛选后,进行抽样人工比对,记录缺陷与差异
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。