通过网络爬虫获取微博数据分析人的行为习惯研究开题报告

 2022-03-04 20:54:12

1. 研究目的与意义

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(search engine),例如传统的通用搜索引擎altavista,yahoo!和google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。随着社会经济的飞速发展,各种各样的电视节目、网络节目、教学节目等多媒体节目层出不穷,使观众眼花缭乱,观众在面对大量的视频资源时有时无法抉择。随着互联网的普及,移动互联网的快速发展,视频网站、新闻网站、社区、论坛等各个网络环境成为了多媒体资源宣传的主要场所,同时也成为了观众了解该资源的主要渠道。 内容资源评价是指对各种信息资源建立一种评价模式,这些信息资源包括教学课程,娱乐节目,社会人物,电视多媒体节目,文学作品等。网络中存在了大量对于内容资源的评价信息,如何甄别一个内容资源的优劣,这些网络评价信息将起到是最直接最有效的作用,充分利用网络信息资源实现对内容的评价,将大大提高资源评价的普遍性

与准确度。

传统的数据分析以人力调研为主,浪费大量的时间和精力,而一些网络资源的评价多是以专业人员制作,受资源制作者的影响,这些评价大多具有片面性,而且很多评价都是在误导大众;而如果要借助受众反馈信息来进行评价,由于受众众多,且分布范围广,传统的收视率,点击率等调查方法对受众的收视行为和收视感官根本无从着手。而由于互联网的普及,移动互联网的使用率大幅增加,受众可以在网络更加自由,更加真实的发表自己观点,利用网络信息抓取技术和语义分析等技术结合,可以即时收集网络信息、分析海量受众的网络收视行为和收视意见,继而更加准确的去评价一个内容资源,为受众选择提供依据。因此,基于网络信息的评价体系相比于传统方式来说将会更加全面,这也是今后内容资源评价的必然趋势。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

在数据获取及分析时,传统的手段受到了时间、空间的局限。随着互联网的快速发展,网络信息爆破式膨胀,利用网络信息抓取技术和文本分析技术相结合实现数据获取分析,对将来信息资源评价具有重要意义。本课题基于网络爬虫获取数据,对微博等各种网络资源进行数据获取来分析人们行为习惯。

本文的主要工作分为两个阶段,第一阶段是通过网络爬虫获取新浪微博数据并进行特征提取,第二阶段是利用提取后的特征,通过机器学习算法建立预测模型,对用户行为进行习惯进行分析。

  1. 获取实验数据并进行数据提取与存储。利用网络爬虫获取新浪微博数据,并剔除对研巧工作影响不大的数据,将用户信息、微博内容信息、用户关系信息等我们需要的信息保存到数据库中并从中提取主要特征,进行格式化处理。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    3. 研究的方法与步骤

    为了对新浪微博的数据进行分析,首先本文需要将数据通过新浪微博自身提供的相应api接口进行爬取,并存入数据库中,作者在此使用的是MySQL数据库存储数据。本文设计了相应的网络爬虫系统,获取了微博文本内容、用户与用户之间的关注关系、用户微博上的个人信息及用户标签。

    由于当前新浪微博的广泛性和用户间相互关注的特点,一方面,用户之间形成的关系很可能是一个有向循环图,如果不采用某种算法对用户间的关系进行处理,有可能形成循环重复访问某些用户的情况。另一方面,即使不是循环图,如果有许多重复的用户也会造成资源的浪费,降低效率。因此,本系统中加入了用户去重模块。当从某个用户的关注或者粉丝列表中提取出一个用户后,首先检测此用户是否己被爬取过,为此我们设置了一个标志位user-flag,初始值是0,表示没有被访问过。当访问过该用户后,我们将其user-flag设为1。同时,由于每个用户在网络中的重要性有所不同,所以需要对每个用户的优先级进行判断,即拥有大量粉丝并且粉丝的重要性较高的用户其优先级更高。这样的话,这些用户所发的微博会被更多的人看到,而且他们所发的微博具有更离的传播价值。所以在选择对哪些用户进行爬取时,总是将优先级高的用户排在前面,这样可以提高整个爬虫系统的整体效率。抓取了某个用户的信息后,要对其进行处理,这时就需要对该用户进行分析。如果对每个用户都进行用户信息、微博信息、标签和用户间关系的抓取,会导致爬取速度的下降。为了提高爬取的效率,本爬虫系统不仅采用了多线程技术,而且使用不同的爬虫机器人爬取不同类别的信息,这样可以更有效率的抓取信息,尽量避免爬虫的效率瓶颈。

    利用token信息对api进行授权,并获取相关的地理信息。利用已保存的poi信息,从place/poi_timeline接口中读取每个poi上的状态信息。由于状态信息中包含有发布者的属性信息,相当于直接读取了一定范围内poi上所有发布者的信息。调用处理后的附近状态信息文件,按照一定规则进行筛选,并选取出相应的用户,获取其签到记录。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献

    [参考文献]

    [1] 袁浩,黄烟波. 网页标题分析对主题爬虫的改进[j].计算机技术与发展,2009,19(6)22-28

    [2] 李刚,周立柱,郭奇. 领域相关的web网站抓取方法[j].计算机科学,2007(2):137-140

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    5. 计划与进度安排

    一、研究工作准备阶段(2022.01.20——2022.03.25):2022.01.20——2022.03.18为准备工作阶段,包括查阅资料、阅读部分参考文献及实验数据准备等;

    2022.03.22——2022.03.28为开题阶段,主要工作是撰写开题报告等。二、研究工作开展阶段(2022.03.28——2022.05.25):2022.3.28——2022.5.10为研究攻坚阶段,主要是研究论文撰写阶段;2022.5.10——2022.5.25为论文修改阶段,对前期工作进行修改和完善。三、研究论文提交阶段(2022.5.25——2022.06.08):毕业论文排版、打印、装订以及提交。

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。