1. 研究目的与意义
新浪微博,是由新浪网推出的微博服务。作为Web2.0时代新生网络应用,新浪微博在最近的几年中得到了快速的发展。到目前为止,新浪微博已经与美国的twitter成为全球拥有最多的微博使用者的两家公司。 新浪微博主要有发布功能、转发功能、关注功能、评论功能、搜索功能与私信等功能。微博的内容不能超过140个字,这样的设定是的用户可以随时发布一些现场记录,生活感慨,并且能迅速的被他的收听者看到,还可以一键转发给更多人看到。这使得微博可以迅速流行起来。 新浪微博是一款为大众提供娱乐休闲服务的信息分享和交流的平台。不论是大公司,还是有名的个人,还是无名的草根,都可以畅所欲言,在一起交流。这也使得微博信息的发送量异常巨大。面对海量的数据消息,我们无法通过仅仅人工的方式对互联网进行全面监控。因此,结合网络信息采集技术和文本信息自动处理技术研发一个网络舆情自动分析系统,将有利于社会管理者们及时了解网络舆情的状态和趋势,因此可以对发现的热点舆情及时进行干预,引导疏通民众情绪和心理,避免矛盾的进一步恶化而造成更大的社会损失。然而,目前微博网站一般根据评论数和转发数统计出热门话题,该方式准确率比较低。我们需要一种更适合微博文本处理的聚类算法,识别出微博用户关注的热门话题,得到舆情热点。
2. 课题关键问题和重难点
(1)尝试将共词网络与复杂网络方法应用于基于微博的网络舆情分析中。使用图论对现实中的舆情问题进行建模,运用数学基本理论对模型中实体之间的关系进行定量计算。(2)微博中大部分信息是零散的,高噪声的,随机的,从而导致构建出的文档空间矩阵维数较高,但数据稀疏,因此传统基于VSM的文本类聚方法效果不佳。(3)舆情分析涉及最主要的技术包括文本分类,聚类,观点倾向性识别。其中基于关键词统计分析方法的技术相对比较成熟,但是其有效性方面还有很大的提升空间。
3. 国内外研究现状(文献综述)
近年来,伴随着互联网的普及,广大网民社会参与意识的提高和一些社会热点、突发事件的发生,网络舆情爆发了巨大的能量。特别是借助微博的兴起与发展,网民可以通过电脑、手机发布消息,每条最多140字。微博即时、快速、便捷和快速传播的特性,进一步推进了网络舆情的发展,微博上的舆论也成为了网络舆情中最具影响力的一种。 新浪微博作为Twitter类的新兴网络应用,是将微内容和SNS的结合,很大程度上改变了网络信息的分享和传播模式,通过关注功能,将用户关联在一起,使得微博出现了人人都是发言者,人人都是听众的局面。这既是信息传播方式的变革,也是人际关系互动的变革。这一变革能够对目前网络信息的价值带来全新的革命性的影响,带来全新的商业价值和社会价值。 《微博分析研究综述》一文中提出信号分析,它是对事件出现的各种征兆或迹象进行解释、质疑、假设、数据补充、验证和评价的过程。此方法立足于不完全信息的条件下,通过关注信号的产生,连续监测、扫描,正确辨识、解读信号,可以对将要出现的威胁或危机及时做出预警。信号分析是情报学领域中一种重要的分析、预测方法。 该文应用信号分析框架,并对信号分析模型进行分解,将信号搜集映射为文本获取阶段,信号辨识映射为话题识别阶段,信号解读映射为情感倾向性判别阶段。在这一模型基础上,通过舆情获取、舆情发现和舆情分析三个实验,运用爬虫抓取、文本聚类、定量分析等方法,采用k-means算法和文本向量工具,对选定主题的新浪微博文本进行了舆情分析,识别了各大主题中网友热议热点话题,并通过时间和话题两个维度进行分布,采用分布统计汇总的方法,识别了新浪微博各个话题的文本情感倾向性,得到了新浪微博网络舆情的精准与长尾、时效与口碑、扩散与共鸣的三大特点以及这些特点对电子商务、企业决策支持、网络舆情预警各个方面的指导作用。 国内对于新浪微博舆情分析有了相当的研究。但是,这些舆情分析系统一般只是应用于企业或政府,更关注于对负面,消极及虚假信息的监管,并不对公众开放。在当今的社会,人们也迫切希望得到一些关乎自身利益的时间的发展情况,如物件的变化,对于一些厂家的产品使用评价等。
4. 研究方案
编程语言使用java,编程工具使用eclipse。使用瀑布模型,将功能的实现与设计分开,便于分工协作,即采用结构化的分析与设计方法将逻辑实现与物理实现分开。研读文献,对采集数据的算法分析进行调试。建立模型,进行模块化设计。数据分析的代码实现:使用java语言编写微博爬虫,抓取有效微博信息,对其进行预处理,应用k-means算法进行聚类。对系统的整体实现。系统的测试,评价,反馈,改进。实验数据收集,撰写论文。
5. 工作计划
第1周: 撰写开题报告和完成外文翻译。第2周: 进行课题总体规划和课题的详细设计。第3-5周: 进行课题模块化设计并进行模块代码编写与调试。第6周: 由导师检查代码编写进度和质量情况。第7周: 中期检查。第8周: 根据中期检查的结果进行整改。第9周: 导师进一步检查对中期检查的结果的落实情况,并保证毕业设计进度。第10-11周:着手撰写报告(论文)。第12周: 完成报告(论文)初稿并交指导老师审阅,老师给出修改意见。第13周: 修改完报告(论文),导师再次进行审阅,并打印装订成册,提交毕业设计报告。第14周: 评阅教师评阅报告(论文),组织论文答辩并评分。第15周: 毕业设计有关文档整理,上报学院学生的毕业设计成绩等。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。