论文总字数:38066字
摘 要
随着在线社交网络(Online Social Network,OSN)的风靡和智能移动设备的普及,用户越来越倾向于同时活跃在多个功能不同的在线社交网络。这些跨网络的多账户用户是多个网络间信息传播的桥梁,是信息跨网络转发的关键,因此对他们的兴趣点进行分析和研究对特定信息在网络间传播路径的预测和跨网络影响力模型的建立都具有深远的意义。抽取用户兴趣标签是简洁明了展示用户兴趣倾向的流行方法之一,本文期望能够对重叠用户在不同的社交网络上的兴趣标签进行初步的探索性质的研究工作,为后续多社交网络问题提供思路。
本文系统基于Python开发,通过爬虫框架scrapy从社交网络网页寄存网站About.me发现在四个在线社交网络(Twitter、Facebook、Instagram、Foursquare)中使用超过两个的跨社交网络重叠用户;然后使用scrapy并结合对应在线社交网络的官方API或网页爬取的方法对其各网络上的相关信息进行爬取,使用MongoDB对爬取到的数据进行保存;然后通过自然语言处理工具包(Natural Language Toolkit,nltk)和正则表达式等技术对文档进行数据清洗和文本预处理;最后使用一种经典的文档主题生成模型LDA(Latent Dirichlet Allocation)对数据进行分析,提取用户的兴趣标签并实现可视化。
系统完成后经测试,功能已满足任务要求。能够对研究关注的内容进行数据爬取及数据分析;同时提供对数据集内重叠用户的相关数据的展示;并实现可实时或非实时地展示抽取的用户兴趣标签。
关键词:多在线社交网络,重叠用户,文档主题生成模型
Label Mining and Visualization of Overlapping Users of Multiple Online Social Networks
71113223 YunTao Yang
Advisor: JiuXin Cao
ABSTRACT
With the popularity of online social networks(OSN) and smart mobile devices, users are increasingly inclined to be simultaneously active in multiple online social networks with different functions. These multi-account users across multiple networks are the bridge to the propagation of information between multiple networks, the key to cross-network forwarding of information. Therefore, Analysis and research on their interest points has far-reaching significance for the prediction of propagation path of specific information between networks and the establishment of cross-network influence models. Extracting interest labels of users is a concise and popular way to show users’ interests, and this article will carry out a preliminary exploration research on cross-social-media overlap users’ interest labels on different OSNs, to provide ideas on following multiple online social network issues.
The system of this article is developed based on Python, using scrapy, a crawler frame, finding cross-social-network overlapping users who use at least two in four OSNs (Twitter, Facebook, Instagram, Foursquare) from About.me, a website that can manage social network pages; then the system uses scrapy to crawl relevant information on each network through corresponding official Application Program Interfacea(API) of OSNs or web page crawling method, and storing the data through MongoDB; then the documents will be data-cleaned and pretreated using technologies like Natural Language Toolkit (nltk) and regular expression, etc; finally, the system will analyse the data using a classic model, Latent Dirichlet Allocation (LDA), to extract the labels of users and realize visualization.
The test results of the finishing system show that the functions have met the task requirements. The system is able to crawl and analyse the data that the research focus on; meanwhile, provide exhibitions of relevant data of overlap users in the dataset; and is able to show the extracted interest labels of users in real time or not.
KEY WORDS: multiple online social networks, overlapping users, Latent Dirichlet Allocation (LDA)
目录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 研究背景及意义 1
1.2 相关研究现状 1
1.3 论文组织 2
1.4 本章小结 2
第二章 相关知识简介 3
2.1 在线社交网络与跨社交网络重叠用户 3
2.1.1 Twitter介绍及相应爬取方法 3
2.1.2 Facebook介绍及相应爬取方法 3
2.1.3 Instagram介绍及相应爬取方法 4
2.1.4 Foursquare介绍及相应爬取方法 4
2.1.5 跨社交网络重叠用户 4
2.1.6 About.me介绍及相应爬取方法 4
2.2 爬虫与反爬机制 5
2.3 用户兴趣标签 5
2.4 本章小结 6
第三章 文本分析相关介绍 7
3.1 概述 7
3.2 文本信息特点 7
3.3 文本预处理 8
3.3.1 噪声过滤 8
3.3.2 文本分词 8
3.3.3 词态整理 9
3.3.4 停用词过滤 9
3.3.5 整合 10
3.4 主题建模与LDA 10
3.5 用户兴趣模型 12
3.5.1 LDA模型局限 12
3.5.2 模型设计 13
3.6 本章小结 13
第四章 系统设计 15
4.1 系统概述 15
4.2 相关技术简介 15
4.2.1 Python与pycharm 15
4.2.2 网页爬取与scrapy 16
4.2.3 OSN官方API 16
4.2.4 MongoDB 17
4.2.5 文本分析相关库 17
4.2.6 LDA相关库 17
4.2.7 可视化相关库 17
4.3 数据爬取功能 18
4.3.1 重叠用户发现模块 19
4.3.2 Twitter爬取模块 19
4.3.3 Foursquare爬取模块 21
4.3.4 Facebook爬取模块 22
4.3.5 Instagram爬取模块 24
4.3.6 重试机制 24
4.3.7 日志框架 25
4.4 数据分析功能 26
4.4.1 数据预处理模块 26
4.4.2 数据建模模块 28
4.5 展示功能 29
4.5.1 数据展示模块 29
4.5.2 结果展示模块及实时建模模块 29
4.6 本章小结 29
第五章 系统展示与分析 30
5.1 系统展示 30
5.2 实验分析 34
5.3 本章小结 35
第六章 总结与展望 36
6.1 总结 36
6.2 展望 36
参考文献 37
致 谢 38
绪论
本章讲述了本课题的研究背景及意义,同时交代了相关方向的研究现状,对参考文献中可用的技术与经验进行了概括,最后介绍了本文的结构组织。为整个课题提供主题及总体把握。
1.1 研究背景及意义
当今社会中,网络的迅猛发展使得曾经的线下活动越来越多地转移到线上,社交就是其中之一。在线社交网络(Online Social Network,以下简称OSN)已成为大多数人的日常生活中不可分割的重要组成部分,建立在在线社交网络上的阅读、发布和互动也已成为现今人们的主要日常活动之一,甚至已成为很多组织和机构官方发布消息或是某些用户主要办公的平台。无论男女老少,几乎都在使用与他们的年龄、性别、职业、兴趣等特征相关的在线社交网络进行着各种日常活动。而且由于智能移动设备(智能手机、平板电脑等)的普及,越来越多的用户已经不仅仅拥有着单一的社交网络账户,甚至在不止一个社交网络账户上都十分活跃(根据Global Web Index在2015年1月发表的社交报告,他们监控了近50个在线社交网站,其中每个用户平均拥有5.54个社交媒体账号,并且其中平均2.82个账户都很活跃。[7]根据Pew Social Media Usage的报告,52%的在线用户都同时使用两个及以上的在线社交网络。[1])。因此,在在线社交网络如此火热的现状下,有关这一研究方向的研究,在近些年也开始变得被重视。
尽管在线社交网络在人们生活中的作用越来越重要和不可或缺,且愈加趋于日常化大众化,并且已经吸引了不少研究者进行过早期研究,不过在如此多的用户都与多个平台紧密相连的今天,如果只进行单独社交网络平台的研究将很难立体完善地描绘用户在各个不同的OSN上的行为、兴趣和特征。因此多社交网络上的研究也十分必要。
剩余内容已隐藏,请支付后下载全文,论文总字数:38066字
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。