1. 研究目的与意义(文献综述)
1 课题来源、目的、意义以及国内外研究现状
1.1课题来源
本课题来源于国家863资助的“面向基础教育的类人智能知识理解与推理关键技术”项目,编号2015aa015403。
1.2 研究目的及意义
1.2.1 研究目的
针对知识理解的本质问题,研究新的深度学习算法,构建高质量的word embedding库;利用大规模数据的特性,研究大型本体知识库构建方法和本体映射等知识深层理解的关键处理算法;研究知识的深层表示、大型知识库上逻辑推理机制和机器学习等关键技术。
1.2.2 研究意义
目前,类人智能技术在蓬勃发展,已有相应的产品应用到教育、医疗等行业。例如:日本的todai robot项目和美国的ibm的waston项目。在基础教育的背景下,基础教育资源蕴含了丰富的知识。我国基础教育资源主要以文本、网页、视频等格式分布在百度文库、道客巴巴、中考网、高考网等资源库中。存在着资源庞杂、良莠不齐、结构混乱等情况。因此,研究如何从大规模的基础教育资源中抽取语义事实关系,构建基础教育资源领域的知识图谱有重要意义。
2. 研究的基本内容与方案
2 研究内容与方法
2.1 研究内容
传统自然语言处理研究更多注重于形式化的表示与计算,而对数据驱动的语义信息利用较为有限,也使得各项任务在实际效果上仍然存在巨大的突破空间。随着深度学习和大数据的兴起,表示学习成为最近的研究热点,将自然语言中的“字、词、词组”等语义单元进行数字化表示是构建知识图谱的一个重要方法。表示学习是机器学习的重要环节,在自然语言处理任务中扮演着重要角色。随着深度学习和大数据的兴起,表示学习成为最近的研究热点之一。与传统图模型知识图谱表示方法相比,表示学习方法可以通过欧式距离等方式,很容易计算实体间、关系间的语义相关度,极大地改进开放信息抽取中实体融合和关系融合的性能。
1)处理表示学习中一对多、多对一、多对多等关系。研究发现,各种知识获取算法在处理一对一、一对多、多对一和多对多4种类型关系时的性能差异较大 [6]。以TransE为例,在处理复杂关系时性能显著降低,这与TransE模型的假设有关。因此需要研究如何实现表示学习对复杂关系的建模。最近有大量关于TransE的扩展模型尝试解决这一问题。
2)考虑复杂推理模式的知识表示学习。考虑关系路径的知识表示学习,实际上是充分利用两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。例如,根据三元组(康熙,父亲,雍正)和(雍正,父亲,乾隆)构成的“康熙”和“乾隆”之间“父亲 父亲”的关系路径,再结合三元组(康熙,祖父,乾隆),PTransE [7]就额外提供了“父亲 父亲=祖父”的推理模式,从而提升知识表示的精准性。实际上,关系路径只是负责推理模式中的一种特殊形式,还有其他形式的推理模式需要我们来研究。
2.2 任务要求
1、利用transE构建基于表示学习的地理知识图谱; 2、结合上下文信息处理表示学习中一对多、多对一、多对多等关系; 3、构建基于表示学习的地理知识图谱分析系统。2.3 技术方案。
2.3 技术方案
近年来,以深度学习为代表的表示学习技术异军突起,在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,两个对象距离越近则说明其语义相似度越高。知识表示学习是面向知识库中的实体和关系进行表示学习。该方向最近取得了重要进展,可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升 [14]。
命名实体识别和知识关系识别后得到的知识图谱只能算是基础知识图谱[8],因为通过命名实体识别和实体关系识别后的知识图谱并没有挖掘实体间的潜在关系、多源信息融合、考虑复杂推理模型等。
命名实体识别和知识关系识别后可以将知识表示为三元组形式,然后根据描述知识三元组的句子和文本将句子和文本中出现的实体链接起来,构成一个基础知识图谱,然后用表示学习方法进行链接预测和潜在关系抽取,补全知识图谱。本课题将着重研究如何用表示学习的方法进行知识图谱补全,来构建大型知识图谱。
图 2.3.1 基于表示学习的知识图谱构建流程
知识表示学习是面向知识库中实体和关系的表示学习。通过将实体或关系投影到低维向量空间,能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。
知识表示学习的几个代表模型,包括距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。其中翻译模型在知识图谱补全和关系抽取得了瞩目成果。本课题也将采用翻译模型对基础知识图谱进行补全来构建大型知识图谱。
在介绍翻译模型前,先定义知识图谱表示为,其中是知识图谱中的实体集合,其中包含种不同实体;是知识库中的关系集合,其中包含种不同关系;而则代表知识图谱中的三元组集合,我们一般表示为,其中h和t表示头实体和尾实体,而r表示h和t之间的关系。
Bordes等人受词向量空间存在的平移不变现象的启发,提出了TransE模型,将知识图谱中的关系看作实体间的某种平移向量 [6]。对于每个三元组,TransE用关系r的向量作为头实体向量和尾实体向量之间的平移。我们也可以将看作从到的翻译,因此TransE也被称为翻译模型。对于每个三元组,TransE希望:
TransE模型定义了如下损失函数:
在实际学习过程中为了增强知识表示的区分能力,TransE采用最大间隔方法,定义了如下优化目标函数:
其中,是合法三元组的集合,为错误三元组集合,返回x和y中较大的值,为合法三元组得分与错误三元组得分之间的间隔距离。
在学习过程中采用随机梯度下降[21]方法来进行学习。
由于TransE模型是假设实体和关系在同一语义空间,对于简单一对一关系具有较高效率,但不能很好的解决一对多、多对一和多对多这些复杂关系。因此,很多学者在TransE模型的基础上进行扩展,提出了TransR[10]、TransH[9]、TransM[11]等模型来试图解决这一问题。
3. 研究计划与安排
(1)2016/1/11—2016/1/22:查阅参考文献,明确选题;(2)2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;(3)2016/3/8—2016/4/26:需求分析,算法或系统设计,分析、比较或实现等;(4)2016/4/27—2016/5/27:撰写论文初稿;修改论文,定稿并提交论文评审;(5)2016/5/28—2016/6/7:准备论文答辩。
4. 参考文献(12篇以上)
[1]singhal a: introducingthe knowledge graph: things, not strings. googleblog. 2012,http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[2]wu f,weldds.autonomously semantifying wildpedia[c].proceedings of the sixteenth acmconference on conference on information and knowledgemanagement.acm,2007:41-50.
[3]bengio y,courville a,vincentp.representation learning:a review and new perspectives [j].ieee trans onpattern analysis and machine intelligence, 2013.35(8):1798-1828.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。