1. 研究目的与意义(文献综述)
目的及意义: 伴随着信息技术的快速发展,特别是互联网大规模的普及和应用,信息飞速的增长,形成了巨大的信息资源。由于用户的真实信息需求到用户提交的查询请求之间和查询请求到系统理解的查询请求之间均存在一定的偏差,传统的信息检索的结果并不理想,难以满足用户的查询需求。因此,研究信息检索中的查询扩展技术,通过对用户的初始查询进行扩展以有效地解决“词不匹配”问题,具有重要的理论意义和一定的实用价值。
国内外研究现状: 1993年,Milier GA提出了一种基于语义学的人工资源—WordNet,它提供了词语间的复杂关系和关联信息。在信息检索中,WordNet可用于确定查询词语的语义信息和获取查询扩展所需的同义词。Liu S等将 WordNet 用于消除查询词之间的歧义,在决定了查询词的语义后,它的同义词、下义词、定义词和复合词都可以作为查询扩展的用词。实验表明,这种方法在不使用网络数据的情况下,检索性能比TREC 9和TREC10分别提高了23%和31%。Kim SB从 WordNet 中得到查询用词的原词,并与自动挑选出来的文档用词一起作为扩展用词加入原查询,该方法在大规模TREC集中取得了较好的检索效果。 为了减少用户的直接参与,Kelly和Teevan提出了隐含相关反馈模型,利用用户的查询日志来推测用户的查询倾向,在无用户监督的情况下,自动根据相关信息来进行查询的扩展。 Shen等在隐含相关反馈方法的基础上,提出了一种基于统计语言模型的上下文检索算法,并将所有用户查询和用户点击文档的摘要用于文档的重新排序,获得了很好的检索效果。 Attar和Fraenkel最早提出了局部分析的思想,通过局部聚类,使用与查询相关的词语来进行扩展,这些相关的词语出现在局部文档集合的局部簇中。Xu和Croft提出了局部上下文分析方法。该方法在整体上是一种局部分析方法,但利用全局分析的词语共同出现的思想避免了向原查询加入不相关的词。该方法基于名词词组而不是简单的关键词,并把它作为文档的概念,为了查询扩展,从位于排序前面的文档中选择一些与查询词语(而非词干)同时出现的概念,不用文档,而是用段落(如固定长度的文本)来确定同时出现的信息。 国内对查询扩展方面的研究也很多。文献[10]提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择。文献[11]将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的。文献[12]提出了根据词之间的语义关系进行扩展和替换的文档重构方法,实现了同一概念信息的聚集,并进一步研究给出一种有效的实时文档重构检索策略,解决了文档重构方法在实际应用中的问题。文献[13]针对短查询串中出现的召回率高但准确率低的问题,在检索的第一阶段利用自动相关反馈方法扩展用户递交的短查询串增加查询信息,在第二阶段使用文本分类技术辅助检索。文献[14]将用户查询中使用的词或短语与文档中抽出的概念相连接加入原查询,同时将作为扩展词的概念进行分类查询并采用整合排序算法调整结果,并引入概念图供用户手动调节,以达到查询优化的目的。 |
2. 研究的基本内容与方案
(1)本次毕设的基本研究内容 ①搜集已有的典型的扩展查询算法,分析比较各个算法的优劣。 ②针对目前已有查询扩展技术的优缺点,设计更加高效、准确、人性化的查询扩展系统。
(2)会使用到的技术使用的技术 目前的查询扩展方法大致可分成三类: 基于语义知识辞典的方法。该方法借助wordNet、HowNet或同义词词林等语义知识词典,选出与查询用词存在一定语义关联性的词来进行扩展,选择的依据通常为词之间的上下位关系、同义关系等。但是该方法过分依赖于完备的语义体系,目前的语义体系还远远不能满足应用的需求,另外,该方法独立于待检索的语料集,选出的扩展词通常难以反映语料集的特性,因而难以取得好的查询效果。 全局分析方法。其基本思想是对全部文档中的词或词组进行相关分析,将与查询用词关联程度最高的词或词组加入初始查询以生成新的查询。这种方法可以最大限度地探求词间关系,并在词关系词典建立之后以较高的效率进行查询扩展。但是当文档集合非常大时,建立全局的词关系词典在时间和空间上往往是不可行的,并且在文档集合改变后的更新代价巨大。 局部分析方法。其概念为两阶段查询,也就是先对使用者的初始查询句做第一次检索,根据检索系统输出的结果,选取排名前N篇的文档进行分析,找出在这些文档中重要性较高的词,与初始查询句组成新的查询句,然后利用新的查询句进行第二次检索。这种方法在目前的应用最为广泛,并在一些实际的信息检索系统中得以应用。但是当第一次的检索结果不佳时,使得排名前N篇的文档中,相关文档占的比例较低,因此去分析这些文档时,则有很高的机率会选出与查询主题不相关的词,若把这些词加入到初始查询中的话,会严重降低查询的精度,甚至低于不做查询扩展的情形,这种现象即为“查询漂移”。
|
3. 研究计划与安排
(1)2016/1/11—2016/1/22:查阅参考文献,明确选题; (2)2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告; (3)2016/3/8—2016/4/26:需求分析,算法或系统设计,分析、比较或实现等; (4)2016/4/27—2016/5/27:撰写论文初稿;修改论文,定稿并提交论文评审; (5)2016/5/28—2016/6/7:准备论文答辩。 |
4. 参考文献(12篇以上)
[10]贺宏朝,何丕廉,高剑峰,黄昌宁.一种基于上下文的中文信息检索查询扩展[J].中文信息学报,2002,06:32-37,45. [11]崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报, 2003,09:1593-1599. [12]张选平,蒋宇,袁明轩,马琮,梁平.一种基于概念的信息检索查询扩展[J].微电子学与计算机,2006,04:110-114. [13]岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报, 2006,07:1926-1929,1934.
[15]马春光,基于用户兴趣的查询扩展算法研究[D],哈尔滨工程大学,2009.
|
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。