1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义社会生活的高度信息化,使网络承载了蕴含价值的大数据,如新浪微博、大众点评网、豆瓣等拥有海量用户的社会化网络媒体,已经被组织和个人广泛地用来辅助决策。
巨大的用户群与潜在的商机,使虚假意见和垃圾信息被广泛地制造和传播,该类危害的源头即俗称的网络水军。
网络水军是指那些由商业利益驱动,为达到如影响网络民意、扰乱网络环境等不正当目的,通过操纵软件机器人或水军账号,在互联网中制造、传播虚假意见和垃圾信息等网络垃圾意见产生者的总称。
2. 研究的基本内容和问题
研究目标通过利用已获取的新浪微博数据,针对关注数与粉丝数进行初步的人工筛选,选出符合要求的数据信息,通过结合所看的各类参考文献来获取水军的基本特征,并采用相应方法进行验证,从而挖掘新的水军特征或者更优的算法提高水军识别的效率并与内容特征进行识别率的比较。
研究内容1.利用python网络爬虫程序对新浪微博数据的采集;2.根据关注数与粉丝数对数据进行预处理;3.根据相关文献提取水军的基本特征;4.挖掘或总结出新的水军特征或更优算法提高水军识别的效率;5.根据不同类别特征(内容特征、结构特征等)对水军识别效率进行对比。
拟解决的关键问题1、python爬虫的实现;2、如何在数据量较大、组织结构复杂的新浪微博中快速高效地进行网页抓取,同时要注意避免获取过程中陷入死循环,避免重复采集,提高采集的覆盖度,并将信息以统一规范的格式进行存储,为后续研究提供高质量的数据;3、对数据根据粉丝数与关注数的相关性进行初步筛选;4、总结出基本的水军特征;5、挖掘或总结出新的水军特征或寻找更优的算法。
3. 研究的方法与方案
研究方法1、阅读大量相关文献的方法;2、理论与实践相结合的方法;3、定量与定性的方法。
实验方案及技术路线数据挖掘模块-python网络爬虫、mysql数据库读写数据预处理模块-根据关注数与粉丝数对数据进行初步筛选水军特征提取-利用用户关系、结构等来实现水军的基本识别挖掘新水军特征-优化水军识别的效率实现水军识别-获取大量数据进行测试与验证可行性分析 1)技术可行性本课题所设计的研究目标,在国内外已经有较多的理论基础和技术基础。
本课题中设计中涉及的大量技术可以查阅相关专业资料与阅读文献完成设计,其他的部分通过自学,挖掘新信息来解决本课题设计的技术问题。
4. 研究创新点
特色或创新之处1. 只对原创微博进行研究,数据更具结构性,结果更准确;2. 挖掘最新的水军识别特征或更优的识别算法;3. 通过结合各类文献中的方法提出更优更效率的特征来实现效率更高的识别。
5. 研究计划与进展
研究计划及预期进展2015年12月-2016年1月,完成所需新浪微博的数据挖掘与数据存储、筛选并建立学习库;2016年2月,完成对用户进行关系特征提取;2016年3月,通过提取的特征来进行工程的实现;2016年4月上旬,对工程进行测试与纠错;2016年4月中旬,撰写毕业设计论文,准备答辩。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。