全文总字数:1097字
1. 研究目的与意义
近年来,随着微博的发展,在突发事件等重大事件的传播过程中,微博日益成为重要的平台和推手,如何有效应对微博舆情,掌握话语权,成为当下亟需面对和解决的重要课题。本系统利用现在最流行的新浪微博信息作为基础,通过整合情感分析的结果,用户可以扩大自己的选择范围,必要时候可以保障和维护自身利益;企业可以了解消费者的心理需求,有助于作出积极的应对措施,提升自己的品牌效益;政府机关能够知晓民众意见,掌握民众心理,有助于进行舆情监控和妥善处理社会问题。
2. 国内外研究现状分析
国外:国外机构在 Twitter 出现之初就发现了其强大的潜力,并且对其进行了研究。但是对网络舆情的研究在很早以前国外的科学工作者就进行了。国外的西方国家在自然语言处理方面有着比较先天的优势,因为他们的单词有着天然的空格分割,所以在处理的时候相对于汉语有优势。
国内:国内有关于自然语言的相关研究比较晚,并且中国对微博的研究也较晚于国外,在一些技术方面还不是很成熟。由于中国语言的灵活性以及多变性,导致在微博这种开放式的环境中会很快的产生许多新词,这些在文本的识别过程中会给程序带来很大的困难。还有微博语言表达上都非常的随意,这样就导致在处理上就不能按照常规的句法分析去处理,而且微博的标点符号的运用也非常的随意,这样就给科研人员的研究带来了更大的困难。
3. 研究的基本内容与计划
研究内容:
本毕业设计主要利用网络爬虫进行数据采集、使用分词进行文本处理,通过微博数据中潜在的信息,挖掘出大众的舆情倾向,以及现在社会讨论的热点话题。主要分为数据采集、数据挖掘和结果呈现三个部分。
1、数据采集:利用微博api进行数据爬虫,抓取微博文本信息。
4. 研究创新点
由于短文本中文本特征较少,提取文本特征时,同类的短文本数据集中具有
相同关键词的文本会相互干扰,弱化了这些词对同类的短文本特征表达效果,进而影响了后续分类的效果。因此本系统将改进已有分词技术,适当提高这些词的
权重,使其更适合处理微博短文本数据信息。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。