全文总字数:5252字
1. 研究目的与意义(文献综述)
近年来,诸如dbpedia,freebase[1],yago2和nlpcc[2]等大规模知识库的发展为回答开放领域的自然语言问题提供了丰富的资源。基于知识库的问答系统(kbqa),即预先给定一个知识库,知识库中包含着大量的先验知识数据,然后利用这些知识资源自动回答自然语言形态的问题。与对话系统的交互式对话不同,kbqa回答的答案是知识库中的实体或实体关系,或者no-answer(即该问题在知识库中找不到答案)。
kbqa主流方法目前分为两种,分别是语义解析和信息检索。语义解析(semantic parsing)便是构造语义解析器,berant j等人通过将自然语言问题转换成一系列形式化的逻辑形式(logic form),通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-caculus)在知识库中进行查询,从而得出答案。但该方法的缺点是存在大量的手工规则,也涉及到传统linguistic的知识。
信息检索(ir)是根据问题中传达的信息从知识库中搜索答案,通常采用排名技术从候选答案中进行正确选择。姚和范杜姆(yao and van durme(2014))提出的方法依赖于规则和依存关系,将问题转化为手工构建的特征。此外, (bordes et al.,2014a,b)使用问题词嵌入的总和来表示问题,该方法忽略了词序信息并且无法处理复杂的问题。
2. 研究的基本内容与方案
我研究的基本内容可以概括如下:
(1)实现bert-crf模型,该模型结合了bert和crf的优点来识别实体。此外实现bert softmax来训练谓词映射模型,模型借助bert从无监督语料中学到的语义知识来生成问题和谓词的深层语义表示。
(2)实现了联合kbqa模型,该方法可避免了复杂的管道模型构造和错误传播,同时通过共享模型参数来优化子任务。
3. 研究计划与安排
2-3 月份:研究先前论文发布的模型和数据集,重现目前sota的模型
3-4 月份:实现bert模型并得到实验结果,完成论文初稿
4-5月份:准备答辩相关材料和论文终稿
4. 参考文献(12篇以上)
- berant, j., et al. (2013). semantic parsing on freebase from question-answer pairs. proceedings of the 2013 conference on empirical methods in natural language processing.
-
bollacker, k., et al. (2008). freebase: a collaboratively created graph database for structuring human knowledge. proceedings of the 2008 acm sigmod international conference on management of data.
-
bordes, a., et al. (2014). "question answering with subgraph embeddings." arxiv preprint arxiv:1406.3676.
-
bordes, a., et al. (2014). open question answering with weakly supervised embedding models. joint european conference on machine learning and knowledge discovery in databases, springer.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。