网络舆情分析与研究综述
Qun Gu1, Yifan Jia1, Xiaohong Hao1,a*
1兰州理工大学计算机与通信学院,兰州,730050,中国
alzgq66@163.com
关键词:网络舆情;公共安全;方法
摘要:随着计算机科学技术的发展,互联网逐渐走进社会的各个方面,各种社会软件的普及和网络媒体的发展,使得信息的传输速度大大提高,形成了网络舆情事件。舆情事件涉及社会的方方面面,舆情监测分析事件在公共安全、经济、政治和管理的方方面面都具有重要意义。本文对网络舆情分析的相关技术进行了总结,列举了文献中存在的问题和解决方法,并对其中一些方法进行了评价。然后在现有网络的基础上,对我国自治区公安舆情分析技术进行了展望。
引言
舆情是“公众观点”的简称,是指一定的社会空间,围绕着社会中介事件的发生、发展和变化,以人的主体为社会管理的对象,企业、个人等各类组织及其政治、社会和道德的取向和持有的社会态度。它更多的是关于社会上各种现象、公众所表达的信仰、态度、意见和情感等的总和的表现。网络舆情是一种舆情。是网络产生、传播的载体,网络舆情是网民态度、评论和意见的总和。
当今世界正处于以网络信息科学为代表的第三次工业革命的快速发展时期,互联网已逐渐成为信息传播的主要渠道之一。到2015年底,全球互联网用户数量将接近7亿,互联网已成为人们表达个人主观观点的主要渠道之一。在这种背景下,网络舆情分析技术应运而生,特别是在公安、金融等方面可以发挥重要作用。政府机构对网络舆情的监测、分析和研究以及正确引导舆情具有重大的社会和政治意义。
1网络舆情分析方法
在网络舆情分析领域,国外研究起步较早,取得了一系列成果,主要是通过评审会的形式推动了整个领域的发展。得到的结果有:会议主题检测与跟踪、专业会议信息检索和文本信息检索。在国内,对网络舆情分析的研究起步较晚,但也取得了一些成果。网络舆情分析的相关技术主要包括以下几个方面:话题检测与跟踪(TDT)技术、网络舆情数据采集技术、海量数据存储技术、网页文本提取技术、基于web的文本挖掘技术,相关技术中的舆情分析与预测。
1.1主题检测与跟踪技术
话题检测与跟踪技术是网络舆情监测的主要手段,在美国首先开始了这项技术的研究。TDT技术分为故事分割和话题检测、话题跟踪检测和相关检测五个任务,贯穿网络舆情分析和预测的全过程,在热点舆情和突发舆情的发现过程中起着至关重要的作用。该技术的研究过程是在民意调查的基础上,在信息收集的基础上,将从互联网上收集到的报告,分片到报告的数据流,再分割成单独的报告,通过文本聚类算法建立主题检测模型,对输入报告之间的语义关系进行判断相关性检测,发现语义关系较强,进入同一主题的焦点报告中都发现了[1]。这个过程可以理解为一个数据过滤过程,关键在于数据的获取和文本的聚类以及数据的存储。在网络舆情分析与预测丰富的信息存储技术中,可以使用文本聚类过程中可以使用蚂蚁聚类算法及其改进算法,相似度计算可以通过建立传统计算方法的向量余弦向量空间模型。
1.2网络舆情数据采集技术
网络搜索引擎搜索是从互联网上收集数据的有效方法,搜索引擎是网络爬虫技术的核心技术之一。其工作原理是通过一种称为web爬虫程序的web爬虫技术,自动地在Internet上不断地对单个节点进行爬虫,从一个或多个初始的URL抓取页面开始,不断地从当前页面中提取新的URL加入队列,直到满足一定的条件为止[1]。网络爬虫技术非常适合于网络舆情数据的自动采集。
另外,对于用户来说,一般的web爬虫程序无法满足面向主题的查询需求,聚焦爬虫应运而生。与传统的web爬虫不同,聚焦爬虫并不是追求大覆盖,而作为抓取对象的目标与特定的主题内容页面相关联,面向主题的用户查询数据资源,更注重抓取的准确性。聚焦爬虫的工作过程比较复杂,需要根据一定的网页过滤分析算法与链接的主题无关,保留有用的链接并将其放入等待获取的队列中,根据一定的搜索策略选择从队列中获取下一个网址,并重复该过程,直到它达到某个系统的某个条件时才停止。另外,所有爬行网页的蜘蛛都会在存储系统中,进行一定数量的分析、过滤、索引,以便之后的查询和检索。对于聚焦爬虫,过程分析的结果也可以为下一阶段的过程给出反馈和指导。
1.3海量信息存储技术
在当前的背景下,网络舆情数据呈数量级的几何增长,而舆情数据的采集呈几何增长[1]。这些数据需要以本地形式存储,并提出长期保存以备将来使用。面对如此大的数据存储容量,一般基于SQL的关系数据库是无法承受的[1]。因此,需要更多的大容量存储设备和数据库来完成[3]。海量信息存储技术是百度、谷歌、亚马逊等核心技术之一。该技术同时可应用于公安、边防等政府机关和舆论信息安全部门。目前海量信息存储技术主要分为两个方面,存储方式和大型数据库。
面对海量信息存储模式主要采用分布式存储模式,目前的分布式存储模式分为直连存储模式和网络存储模式。网络存储分为附网存储和存储区域网络。直接连接存储通过服务器和网络的连接,可以对服务器造成额外的负载,网络存储直接连接到网络,避免造成服务器负载[3]。
大型数据库管理系统要满足数据库的高并发性、说、读、写的要求,对数据的高效存储和存取的要求,以及对数据库的高扩展性和高可用性的要求。数据库的主要类型以Oracle、SQL Server为代表的传统关系型数据库(RMDB),以及以BigTable、HBase和Mongo DB为代表的非关系型数据库(没有SQL,不只有SQL),两者都实现了数据库数据的分布式存储和并行处理操作。相对而言,传统的关系数据库数据结构用来存储一些格式,虽然容易连接表与表之间并进行操作,但由于其性能的限制。而不是一个关系数据库到键值的存储,不局限于一个固定的结构,在操作中不存在连接,比如实际部分减少了时间和空间的开销。进入web2.0时代,大量非结构化数据出现在互联网上,对数据的SQL操作明显减弱,这客观上促使了非关系型的成功[3]。
1.4基于web的文本挖掘技术
基于web的挖掘技术,是数据挖掘技术领域的一个分支,是针对Internet环境的一种特殊的挖掘技术。Web挖掘是一门交叉学科,涉及统计学、机器学习、人工智能、生物信息学等多个研究领域,其目的是在互联网上发现潜在的、有价值的信息或模型。根据挖掘对象的不同,web挖掘可以分为三类:web使用挖掘、web结构挖掘和web内容挖掘[3]。在网络舆情分析与预测的相关研究中,由于其面向对象的主体是消息内容的web文本,因此属于web内容挖掘的范畴[3]。
在一般的数据挖掘技术中,web内容挖掘是分类和聚类技术的基础技术,其过程一般包括web挖掘和web预处理、文本模型表示和文本分类或聚类步骤[3]。
文本聚类分析是数据处理的一个关键步骤,更是可以分为空间概念语义相似度,基于支持向量机(SVM)和无监督聚类相结合的方法。
1.5信息过滤技术
信息过滤技术主要应用于公安网络舆情信息采集系统中,用于根据用户的需求对用户进行过滤和动态信息反馈[4]。
舆情信息采集方面,公安情报人员通过基于布尔逻辑的关键字匹配来采集数据,往往会超出想象和吸收能力,对采集结果的个数进行分析,同时也包含了大量的数据和用户需要的远噪声数据,文献[4]提出了信息采集方法滤波技术可以有效地解决这一问题。它是通过不断的智能学习掌握用户需求信息提取技术,提取用户感兴趣的信息,过滤无用信息[4]。
公安情报信息需求和偏好是相对稳定的,借助信息技术可以看到信息过滤,公安情报可以从互联网上不断快速地增加信息量,并在更为复杂的情况下通过一个对情报人员了解学习机制的需求日益增长,用户档案以记录的形式出现,并根据记录对收集到的信息进行过滤[4]。而智能则可以根据自己的需要自行决定是否将反馈信息发送到过滤网来表示哪些信息,经过这样的反复研究、调整,最终会使过滤规则根的使用越来越紧密,形成良性循环。
2网络舆情分析与预测的关键问题及对策
2.1网络舆情分析与预测问题
目前,国内外对网络舆情分析检测的研究已经取得了丰硕的成果,但仍存在一些问题没有解决。文献[5]问题:
(1)在网络环境下,信息传播碎片化导致网民难以获得全面的信息。在网络环境下,网民在传播信息的同时,对个性的追求、网络文化结构、年龄结构、地域结构以及社会阶层结构的差异,使他们聚焦于同一事件,选择传播的信息和传播的信息也不同,最终导致信息传播的碎片化。信息传播碎片化导致网民很难获得全面的信息,但获取的是离散的、部分的信息位。片面的信息也为别有用心的人提供了肆意发挥、虚假事实的空间,在一定条件下很容易演变成网络舆论。
(2)平面主题模型描述种子事件和派生事件之间的语义关系,导致相关事件检测困难。现有的相关事件检测方法以核心词作为事件关联的基础,提出了检测种子事件和派生事件之间关系的方案,以及派生事件之间是否存在关联难以检测。特别是当衍生事件与种子事件密切相关时,种子性状成为事件间干扰的衍生相关检测。如何消除种子事件的干扰,事件检测种子与衍生事件之间的关系,是解决该问题的关键。
(3)现有的方法忽略了网民情绪演化和事件传播的影响,导致事件检测精度下降的信息传播过程实质上是网民情绪传播和碰撞的过程。突发事件中,网民从互联网上获取信息的同时,也可以传播信息,在信息传播过程中他们往往会附加恐慌、愤怒等负面情绪。在信息传递过程中,网民的情感被放大和移情,最终导致群体现象,刺激了网络舆情事件的爆发。
2.2解决方案
针对上述问题,文献[1]提出了以下解决方案:
(1)本文提出了一种基于改进蚂蚁聚类算法的分割策略,该算法通过构造循环余弦向量空间角来计算平均相似度的方法,有效地避免了语义缺失问题。平均相似度计算数据对象及其周围对象可以看作是一个聚类决策过程,可以描述为对于报表碎片集D{d1,d2,d3,hellip;,dn},给出一个片段di,计算di与其周围dj相似度的覆盖范围的平均值,平均相似度越大,则它属于该类别的可能性越大。在此基础上,定义了损失函数f(d)。
(1)
报告将涉及到特征空间中的聚类片段映射,假设di报告的片段特征空间中有Wd,表示损失函数为
(2)
对于公式(2),通过推导,最终形成平均相似函数
(3)
推导出平均相似度函数。选择sigmoid函数作为概率变换函数。然后随机移动的蚂蚁“捡到”数据的概率是:
(4)
随机移动的蚂蚁“放下”数据的概率是:
(5)
(6)
c表示收敛参数。
(2)提出了一种基于物理相关性的相关事件识别方法。在子主题分类的基础上,将主题的特征分为种子特征和派生两个维度,基于层次事件模型,从种子特征和派生两个维度构建文档之间的事件关联线索。
(3)提出了一种基于用户情绪的紧急在线识别方法。文献[5]提出了一种融合用户情感事件的检测方法。随着话题层次模型的构建,该方法可以根据时间常数调整模型驱动模式的特点,达到在线识别突发事件的目的。文献[6]是通过对短文情感价值的计算,将情感价值作为事件碎片化的特征,对DTM演变后的文献碎片化进行分析,但这种方法在计算情感价值时带有一定的主观性,如文中的程度副词,人工设定的权重值将无法显示词语的真实权重,不同程度副词之间的权重差很难控制,程度副词的分类也因人而异,因此,如果在计算情感值时出现错误,将直接影响结果准确的。
3总结与展望
在当前信息爆炸的背景下,网络舆情分析不仅是百度等大型互联网公司的核心技术,也是公安、边防等部门的核心研究课题。网络舆情监测对维护社会秩序具有重要意义。比如在新疆、西藏等分裂活动频繁地区,可以建立基于少数民族语言识别的网络舆情监测系统,可以有效地分析和预防突发事件,控制事态发展,可以有效地打击恐怖主义。同时可以建立相应的基于外语的网络舆情监测系统,用于对国外舆情信息进行识别,有效抑制外来敌对势力入侵,保障国土安全,保护国家机密。
鉴于当前国内外形势,反恐已上升到地区和国家、国家和国家层面,我国新疆维吾尔自治区和西藏自治区面临的形势更加严峻,有必要对少数人民群众的意见和舆论进行监测。少数民族地区社会、经济与我国东部和沿海地区不同,是一个具有一定宗教性和民族性的少数民族地区,也具有一定的复杂性。因此,自治区舆情报告数据具有明显的特点,改进后的信息过滤技术可以用于数据采集,然后将文本聚类形成存储到本地案例中,数据存储需要使用大型数据库。
致谢:中国国家自然科学基金项目资助(第61540033号和第6126300号)。
参考文献
[1]范少玉.基于海量舆情信息的网络舆情分析系统的设计与实现[D].华南理工大学,2013年。
[2]王磊.公安网络舆情分析系统研究[D].北京交通大学,2008.
[3]费少东.网络舆情事件检测与跟踪相关技术研究[D].山东师范大学,2015年.
[4]何天祥,张辉,李波,杨春明,赵旭坚.基于情绪分
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237052],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料