1. 研究目的与意义(文献综述)
随着网络信息化的逐步发展,非结构化的文本信息不断增长,如何对大量产生的非结构化文本信息进行有效的处理成为研究的热点。信息抽取技术因其能够从非结构化的文本信息中进行结构化抽取,受到学者们的广泛关注。命名实体识别和关系抽取是自然语言处理中非常重要的任务,对于知识抽取和知识库的自动构建有着重要意义。
其中,命名实体识别与实体关系抽取作为信息抽取领域的重要课题,目前解决这个问题的方法主要分为两类:流水线的方法和联合学习的方法。流水线的方法首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类。这种抽取方式将命名实体识别与实体关系抽取定义为两个相互独立的子任务,它的优点是各个模块之间相互独立、灵活度较高且易于实现。但是这种方法可能导致错误传播,实体识别模块的错误会影响到下面的关系分类性能,此外还忽略了两个子任务之间的内在联系。联合抽取方法旨在构建联合抽取模型,当命名实体识别与实体关系抽取之间存在较强内在联系或依赖关系时,联合抽取模型能够更好的整合两者之间的信息,降低各个中间步骤产生的错误,进而提升抽取模型的性能。
近年来,对于命名实体识别和关系抽取也有了一些研究。suncong zheng等人[1]提出了一种包含命名实体识别模块(ner)和关系分类模块(rc)的混合神经网络模型来解决这些问题,其中采用lstm结构来显式地建模标记交互,不仅考虑了ner模块和rc模块的相关性,还考虑了实体标签和无复杂特征工程之间的长距离关系。shaoleiwang等人[5]提出了一种基于神经传递的联合实体和关系提取方法,使用一种直观的图方案来共同表示实体和关系,从而使得端到端关系提取可以很容易地转化为类似解析的任务,这种方法不仅可以模拟实体和关系之间的依赖关系,而且可以模拟关系之间的依赖关系。changzhi sun等人[6]则通过图卷积网络对实体和关系进行联合类型推断,他们引入一个二元关系分类任务来探索实体-关系二部图的结构,通过高效的图卷积运算,可以通过在二部图上递归地聚集它们的邻域信息来学习实体节点和关系节点的表示。tsu-jui fu等人[7]提出了一种基于图卷积网络(gcn)联合学习命名实体和关系的端到端关系抽取模型graphrel,将rnn和gcn相结合,不仅提取序列特征,而且提取每个单词的区域依赖特征。这种方法也考虑了文本中所有词对之间的隐含特征,预测每个词对之间的关系,解决了实体重叠的问题。在此基础上,该方法提出了一种新的关系加权广义网络模型,这种模型考虑了命名实体与关系之间的相互作用。
2. 研究的基本内容与方案
命名实体识别和关系抽取是自然语言处理中非常重要的任务,对于知识抽取和知识库的自动构建有着重要意义。设计的主要内容是基于神经网络的实体识别和关系抽取联合学习,即通过联合学习的方法从无结构的文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组)。基本目标是在纽约时报(nyt)上搭建一个端到端的神经网络模型,进行实体识别和关系抽取的联合学习。
主要包含以下子任务:
(1)下载nyt数据库,了解数据存放格式
3. 研究计划与安排
第一周:下载nyt数据库,了解数据存放格式,并将数据存为易处理的格式,便于后续的处理。
第二周:开始实现基于流水线的方法,主要完成命名实体识别。
第三周:在之前的命名实体识别的基础上,利用深度学习的方法训练文本分类的模型。
4. 参考文献(12篇以上)
[1] s. zheng, y. hao, d. lu, h. bao, j. xu, h. hao,et al., joint entity and relation extraction based on a hybrid neural network,neurocomputing. (2017) 1–8.
[2] m. miwa, m. bansal, end-to-end relationextraction using lstms on sequences and tree structures, acl, (2016).
[3] f. li, m. zhang, g. fu, d. ji, a neural jointmodel for entity and relation extraction from biomedical text, bmcbioinformatics. 18 (2017).
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。