基于网络爬虫的社交网络数据挖掘分析系统的设计与实现开题报告

 2022-11-20 11:16:27

1. 研究目的与意义

随着互联网普及率的不断提升,社交网络用户规模持续增长,微信、微博、豆瓣、知乎等社交软件的兴起促进了人们相互交流,相互沟通,相互参与。

社交网络的这种交互特点,决定了网络海量的数据资源中不但包含了大众广泛关注的社会信息,还蕴含着用户潜在的行为特征以及特定行业或公司所关注的有关自身利益的热点内容。

因此,如何从数据量庞大的社交网络中获取有价值的信息是越来越多的研究人员开始关注的问题。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

课题关键问题:网络爬虫部分:1.如何根据网站主体特性的不同构造url;2.如何具备更强的抓取能力;3.对于多线程并发的处理,以及缓存的处理;4.对反爬机制的应对和网络时延等的处理;5.对于数据的存储格式与形式。

算法部分:1.使用tf-idf算法,找出多篇文章的关键词;term-weight(词加权,词权重);2.求两个序列中最长的公共子序列算法;3.描述两段文字之间的"相似度";4.获得用户和用户之间的相似度;找到和目标用户兴趣相似的用户集合,为推荐系统做准备。

课题难点问题:1.如何绕过网站的反爬措施以及保证爬虫的稳定性与健壮性;2.nlp自然语言处理:难点在于怎么统计该关键词在多少篇文章中出现过,也就是怎么解决该关键字在一篇文章中出现多次但只算一次;3.lcs:难点在于对相似度的衡量,按占比的多少,才达到相似;4.基于用户的协同过滤user-cf:难点在于在于计算最终的相似度。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

1、爬虫的组成结构对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括nutch,larbin,heritrix。

网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视频等信息,学习网络爬虫基本原理以及运行机制,准确定位:使得数据获取方便,数据筛选:精炼海量信息,明确数据库角色扮演者;根据所爬取的目标网站设计自己的爬虫。

1、首先用Fiddler抓包工具对所爬取的网站进行抓包;2、使用requests请求网页,然后对json格式数据进行分析并提取;3、将数据保存至MySQL数据库中,通过脚本程序进行数据转换;4、采用NLP算法对爬取的数据进行精准的挖掘。

5. 工作计划

第1-2周:查能资料完成任务书,完成开题报告。

第3-4周:开题报告会,学习网络爬虫基本机制,学习使用mongodb、mysql数据库,学习python,搭建python环境,学习laravel与bootstrap框架。

第4-5周:查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提虫解决效案,完成初稿,并完成基础代码编写。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。