微博用户关系可视化分析系统-数据采集与统计分析模块开题报告

 2022-07-20 14:07:24

1. 研究目的与意义

随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性内容简洁性和低门槛等特性,在网民中快速渗透,已发展成一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介以及社会公共舆论的重要平台,作为具备庞大使用群体的社交平台,微博拥有大量的用户数据,这些数据蕴含着难以想象的价值。

网络信息以几何级数的方式急速增加,无时不刻都会有或新或旧的内容出现。

呈现在用户面前的海量、高速信息使用户很难在纷繁复杂的滚动中找到想要的真正有价值的东西。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究内容:1.获得新浪微博数据采集的权限。

2.进行用户个人信息的采集主要采集内容有:UID、昵称、是否为会员、是否是大V、认证信息、粉丝数量、关注数量、微博数量、地区、性别、情感状态、生日、血型、个人简介、徼博创建时间、EMAIL、QQ.#58853;MSN、公司、教育情况、个人标签等。

3. 进行用户微博信息采集通过抓取微博网页内容,得到微博内容、微博地理数据、被赞数量、被转发的数量、被评论的数量、评论内容、微博评论的评论人列表、创建时间、是否是转发、如是转发,则抓取被转发微博主ID、被转发微博主昵称、被转发微博内容、直接转发人名称等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

现如今facebook、twitter,微博、微信等越来越深刻地改变着人们的学习、工作以及生活方式。

随着社交网站的发展,人们对于关系的需求增强,一些关于关系的搜索策略在相关网站上得以发展应用,例如微软亚洲研究院推出的人立方关系搜索、chinaren 中国人同学录搜索、百度空间搜人、腾讯搜索华尔兹、ucloo搜人、spock 等都属于关系搜索产品。

随着网络中网站和网页数量呈指数级别的增加,没有任何爬虫程序能够在有限的时间内将所有网页进行遍历,于是应当釆取有效的策略,来优化采集效率,去除主题无关的URL,挑选权重较高的网页进行采集。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

2022年1月15日之前--完成开题报告2022年1月28日之前--完成具体数据采集处理方案设计和完善,完成具体要参考的爬虫技术和工具的选择2022年2月2日之前--开始进行数据采集算法的编写。

2022年2月15日之前--完成算法编写,开始具体数据采集流程。

2022年2月28日之前--完成数据采集工作并开始对数据进行分析处理。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]Jin Zhang,信息检索可视化[M],北京:科学出版社,2009;[2]何苾菲,基于微博用户行为的兴趣模型构建和可视化方法研究[D],哈尔滨工业大学,2013;[3] 丁兆云、贾焰、周斌,微博数据挖掘研究综述[J],计算机研究与发展,2014;[4] 王志宏 ,微博用户兴趣挖掘技术研究[D] ,华东理工大学,2014-11-04 ;[5] 廉捷,基于用户特征的社交网络数据挖掘研究 [D],北京交通大学,2013-12-01;[6] 王志召,微博客数据分析系统的设计与实现[D],北京邮电大学,2014-03-10;[7] 杨阳,微博内容的采集、分析及其可视化研究 [D], 大连理工大学,2015-05-01;[8]吴晓阳,微博用户社会关系离线挖掘算法的研究 [D],北京交通大学,2016-03;[9] 赵捷、谭国强,基于新浪微博的数据挖掘及可视化研究[J],电子技术与软件工程,2015-09-22;[10] 樊鹏翼、王晖、姜志宏、 李沛,微博网络测量研究[J],计算机研究与发展,2012-04-15;[11] 冯典,面向微博的数据采集和分析系统的设计与实现[D],北京邮电大学 ,2013-03-08;[12] 周中华、张惠然、 谢江,基于Python的新浪微博数据爬虫[J],计算机应用,2014-11-10;[13] 陈琳、任芳,基于Python的新浪微博数据爬虫程序设计[J],信息系统工程, 2016-09-20;[14] 曾小虎,基于主题的微博网页爬虫研究[D],武汉理工大学,2014-04-01;[15] 王川,社交网络数据抓取和社团发现研究[D],复旦大学,2013-09-28;[16] 梁年、何宗宜、 苗静,微博数据挖掘的用户行为时空特征分析[J],测绘科学,2015-11-23;[17] 曼丽春、朱宏,WEB数据挖掘研究与探讨[J],西南民族大学学报(自然科学版), 2005-02; [18] 刘明刚、吴继娟.基于Web数据挖掘研究[J]. 黑龙江科技信息. 2007-08;[19] 王文帅、杜然、程耀东、陈刚.一种面向大规模微博数据的话题挖掘方法[J]. 计算机工程与应用. 2014;[20] 曹玖新、吴江林、石伟、刘波、郑啸、罗军舟.新浪微博网信息传播分析与预测[J]. 计算机学报. 2014-04;[21] 盛宇.基于微博的学科热点发现、追踪与分析--以数据挖掘领域为例[J]. 图书情报工作. 2012-08;[22] 王淼、刘友华.微博客的情报特征及其获取方法[J]. 现代情报. 2013-01;[23] 李夏.社交媒体数据分析平台的设计与实现[D]. 北京交通大学.2014 ;[24] 刘晶晶.面向微博的网络爬虫研究与实现[D]. 复旦大学 .2012;[25] 臧凯源.网络金融数据分析系统的设计与实现[D]. 北京交通大学.2015;[26] 罗一纾.微博爬虫的相关技术研究[D]. 哈尔滨工业大学. 2013; [27] 刘璐.微博数据分析及可视化展示系统的设计与实现[D]. 山东大学 .2013;[28] 曹鹏、李静远、满彤、刘悦、程学旗.Twitter中近似重复消息的判定方法研究[J]. 中文信息学报. 2011-01;[29] 张晓艳、王挺.话题发现与追踪技术研究[J]. 计算机科学与探索. 2009-04 [30] 姚文琳、刘文.一种基于本体的PageRank算法的改进策略[J]. 计算机工程. 2009-06;[31] 史春永.面向新浪微博的数据采集和社区发现算法研究[D]. 华中科技大学,2012 ;[32]张昊.社交网络用户影响力关键技术研究[D]. 上海交通大学,2014;[33]李妍.微博数据预处理及话题检测方法研究[D]. 河北师范大学 ,2014;[34]单月光.基于微博的网络舆情关键技术的研究与实现[D]. 电子科技大学,2013; [35] 尹子斌.基于微博用户行为的数学建模和数据分析[D]. 上海交通大学,2013-05;[36]沈崇玮.基于微博数据的用户影响力分析研究[D]. 北京邮电大学,2013; [37]刘佳.面向微博的热点话题发现及跟踪[D]. 华南理工大学,2012。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。