基于Lucene的个性化信息服务系统开题报告

 2022-01-26 10:56:24

1. 研究目的与意义、国内外研究现状(文献综述)

1、课题的意义近年来,江苏省的图书馆、博物馆等各大场馆纷纷建立自己的web网站,及时为市民提供了专家讲座、展览论坛、节庆活动、电影放映、新书上市、文艺演出等各种公共文化活动信息。

但是,各大场馆针对手机用户的wap网站还没有建立起来,并且web网站提供的文化活动信息零落分散,深藏在互联网的海量信息中,市民无法全面、及时获取自己感兴趣的信息。

因此,急需将各家深墙之中的公共文化活动信息在一个平台上展示,从而提升公共文化服务的有效性,提高政府对公共事业的投资回报。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1、关键问题1) 面向公共活动的信息抓取方法,过滤掉不相关内容只抓取与相关主题有关的网页信息。

2) 中文文本不像英文文本的单词那样有空格区分,它的读取需要分词处理。

然而目前还没有专门针对特定领域的分词系统,将信息按照行业属性进行分词处理是文本分类过程中的一个难点,对后面分类的准确性将产生影响。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

1、研究方法及实验方案公共文化活动信息生成的过程有3个环节,首先,网络爬虫在图书馆、博物馆等各大场馆的web网站上采集与某一主题相关的网页;其次,要对网页内容进行抽取,利用分类算法对抓取内容按活动类型的细类进行不同程度的分类处理;最后,将已经归类的信息为用户的手机、pad等移动设备提供详细的信息查询服务或通过智能账号推送。

用户通过手机应用程序app登陆服务系统,可以定制自己感兴趣的文化活动主题,根据用户的喜好,在手机地图上显示公共文化活动的信息,选择相应的目的地后,通过gps来获取用户目前所在的位置,给出用户到达目的地的路线规则。

2、技术路线在服务器端,通过网络爬虫定向抓取相关网页,然后再对网页进行分类处理并提取网页内有价值数据,加入基于向量空间模型的主题相关度匹配算法和url优先控制策略,提高了抓取内容的准确率,接着将数据导入后台数据库,并由lucene创建增量索引,之后对数据进行查询和分析统计。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1、使用爬虫爬取网页,自己编写爬虫程序,实现按主题分类,并定时更新爬取的网页;2、利用Lucene创建索引,并将爬取的网页存入数据库;3、利用webservice连接数据库,实现客户端和服务端的交互。

5. 研究计划与进展

2015年12月29日前:开题报告和PPT;2016年2月15日前,Android环境搭建以及界面设计;2016年4月15日前,爬虫算法学习及应用,webservice的学习及应用;2016年5月15日前,完成项目和结题报告。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。