文献综述(或调研报告):
通过阅读大量的有关问答系统的论文,并且对现有的问答系统(比如Siri、微软小冰等)的调查和分析发现,DBQA基于文档的问答技术是目前比较主流并且使用很广泛的技术,对于每个问题,会给定几段文本作为参考,这些文本通常根据问题检索得到,每段文本中可能包含有答案,也可能只与问题描述相关,而不含有答案。我们需要从这些文本中抽取出一个词或几个词作为答案。另外,还通过学习相关论文了解了web问答平台(比如知乎)的大体实现思路。
- 问答系统设计
语义解析(Semantic Parsing)该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式(logic form),通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-Caculus)在知识库中进行查询,从而得出答案。而形成的语义解析树的根节点则是最终的语义解析结果,可以通过查询语句直接在知识库中查询最终答案。信息抽取(Information Extraction)该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案。向量建模(Vector Modeling)该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),通过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(通常以点乘为形式)尽量高,模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选,得出最终答案。
樊孝忠, 李宏乔, 李良富 在【1】中介绍BAQS的研究背景和系统框架.探讨基于问点块和语义块识别以及句模匹配分析问句的新方法,并用向量表示整个问句语义.借鉴本体和知网思想,构建银行领域本体库和银行知网.采用预先对金融领域实用文本进行标注,依据问句向量从标注树中提取答案.并针对某银行实现汉语自动问答系统.实验表明该方法可行,对自动问答系统的设计具有借鉴意义和深入研究的价值。
余正涛在【2】中提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词一句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题。
孙昂在【3】中根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型和支持向量机训练答案抽取分类器.基于不同特征组合训练得到的分类器在五类事实性问题上进行了测试,其F值分别达到70.87%和85.75%.。
胡顺宝等人在【4】中提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案。
许丽等人在【5】中提出一种基于句法结构和语义信息的问题特征提取方法。利用依存句法分析出问句的主干,从语义信息角度分析问句主干从而提取出问句的特征词,并用改进贝叶斯算法进行问题分类。实验证明,该特征提取方法能提高问题分类的准确性。
李冬梅等人在【6】中为了使中文问答系统能够准确高效地识别问句的语义,在构建生物医学领域本体的基础上,提出了一种基于浅层句法分析和最大熵模型的语义分析算法.该算法首先对自然语言问句进行语义块识别,如果识别成功,则形成问句向量,然后利用本体进行SPARQL查询;如果识别失败,则调用最大熵模型,判断问句的语义角色.最大熵模型利用标注好语义的熟语料进行训练,提取语义组块特征,从而判断出最可能的句型,形成问句向量,然后再利用本体进行查询,获取答案.通过实验与其他方法相比,新算法具有更高的查准率和召回率.
在【7】中,Cabrio 等人将问题解释的问题解决为基于关系的匹配,其中问题的片段使用自动收集的关系文本模式与三元组的二元关系匹配。对于演示,关系模式是从Wikipedia自动提取的,而DBpedia是使用自然语言界面查询的RDF数据集。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。