全文总字数:1351字
1. 研究目的与意义
知识图谱(knowledge graph)是由关系三元组和属性三元组构成的集合,它可以用来表示现实世界涉及到事物及其关系的网络,并有助于许多知识驱动的应用研究,如问答系统、语义网络等。
然而,现有的大规模知识图谱如dbpedia、yago等,不同语言表示的知识量十分不平衡,英语表示的三元组数量远大于其他语言。
本文研究跨语言知识对齐问题,将多语言知识图谱中不同语言表示的同一事物对齐并建立连接,包括实体、关系、属性和属性值的对齐。
2. 国内外研究现状分析
国外研究概况:知识对齐的方法主要有基于特征和基于嵌入(embedding)的两类方法。
基于特征的方法需要事先定义特征。
sorg等[1]和oh等[2]训练了基于文本特征的监督学习分类器。
3. 研究的基本内容与计划
研究内容:(1)理解知识图谱、跨语言知识图谱对齐的的理论(2)基于dbpedia数据集,搭建中-英、法-英、日-英三类跨语言实体对(inter-lingual links,ills)数据集(3)理解sigma算法,在搭建的数据集基础上实现知识对齐研究计划:(1)大量阅读关于跨语言知识对齐的文献,理解算法原理。
(2)理解dbpedia数据集,在其基础上设计算法随机抽取合适的三元组作为训练数据。
(3)实现sigma算法进度计划:第一周第三周:查阅资料,知识图谱对齐的基本理论,查阅相关文献完成开题报告 第四周第六周:详细学习dbpedia数据集,理解数据内容和结构,设计算法构建训练数据集 第六周第九周:理解sigma算法,将其迁移至跨语言知识对齐问题中,实现算法第十周:对各个部分进行分析完善第十一周:论文大纲和撰写草稿第十二周第十三周:撰写毕业论文第十四周:修改完善毕业论文第十五周第十六周:准备论文答辩
4. 研究创新点
(1)构建中-英、法-英、日-英三类跨语言实体对(inter-lingual links,ILLs)数据集,为后续的研究提供数据支持。
(2)将SiGMa算法应用到跨语言知识对齐问题中,验证其在跨语言知识对齐中的效果。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。