1. 研究目的与意义
随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。
为了解决此问题,出现了网络搜索引擎。
网络搜索引擎中以基于www的搜索引擎应用范围最为厂泛。
2. 课题关键问题和重难点
关键:从互联网上抓取包含查询内容的网页建立自己的索引数据库在索引数据库中搜索关键内容对搜索结果进行排序处理难点:首先我们得了解搜索引擎的基本组成以及其对应的功能如此我们才可以分块来完成每一部分。
还得了解搜索引擎的工作原理对其有个宏观的把控。
在系统分析的过程中,难点在于实现相应的功能如要支持分词搜索,支持全文搜索,能够高亮度显示搜索关键词等。
3. 国内外研究现状(文献综述)
搜索引擎技术起源1990年,蒙特利尔大学学生alan emtage、peter deutsch和bill wheelan出于个人兴趣,发明了用于检索、查询分布在各个ftp主机中的文件archie,当时他们的目的仅仅是为了在查询文件时的方便,他们未曾预料到他们的这一创造会成就日后互联网最的广阔市场,他们发明的小程序将进化成网络时代不可或缺的工具搜索引擎。
1991年,在美国cerfnet、psinet及alternet网络组成了ciea (商用internet协会)宣布用户可以把它们的internet子网用于商业用途,开始了internet商业化的序幕。
商业化意味着互联网技术不再为科研和军事领域独享,商业化意味着有更多人可以接触互联网,商业化更意味着潜在的市场和巨大的商机。
4. 研究方案
1.系统概要设计具体实现1.首先实现环境配置,我所选择的搜索引擎是基于lucene的,所以需要利用lucene的一些jar包,这样才能借助lucene完成我们自己想要的搜索功能,并且为了实现分词2.功能实现(具体模块)(1)建立索引lucene对数据的检索是在索引文件中查找的,如果直接在数据中检索会出现一些问题:一个是数据库检索要实现全文检索,实现分词是相当困难的,而且,如果数据量小只有几百几千倒是可以考虑用数据库检索。
把数据从数据库里读取出来,写入索引文件的时候是一条一条记录的写入的。
由于lucene只能替文本这一类型的数据组建索引,所以为了进行其他类型的数据进行检索,只能把其他的格式的数据用文本类型的替换,这样就可以进行索引、搜索了。
5. 工作计划
2022-2022-1学期:第15-16周:完成选题,查阅相关中英文资料。
。
第17周:与导师沟通进行课题总体规划。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。