1. 研究目的与意义、国内外研究现状(文献综述)
随着移动互联网技术的快速发展,用户对网络的依赖性越来越大,网络中结构化、半结构化以及非结构化的数据呈指数级爆炸式增长,大数据时代己经到来。大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变[1]。用户是数据的来源,数据是价值的载体[2]。伴随着互联网的迅速发展以及移动应用软件的开发,个人的碎片化行为都以一种数据的形式存储下来了。面对大数据时代的海量数据,如何充分挖掘海量数据背后的价值,深入了解用户需求,提升营销效率,逐渐成为了企业的重要目标。基于这样的背景,针对移动互联网领域中用户行为的研究成为了统计学数据挖掘热门话题。挖掘移动用户信息模型运用的场景、模型实现的方法以及经济学现实营销意义得到了社会广泛的关注。伴随着大数据技术的发展与应用,企业获取数据的来源和方法得到了拓展,这让企业有机会得到更多的用户样本,同时解决了企业面临海量数据时的计算和存储问题。企业可以对用户在互联网上留下的行为数据进行采集、清洗和转换,形成数据仓库,通过采用统计分析、数据挖掘的方法进行建模,全方位、立体性的刻画出每个用户的用户画像[2]。用户画像是大数据技术的重要应用之一,其目标是在多维度上构建针对用户的描述性标签属性。利用这些标签属性,对用户多方面的真实个人特征进行描绘勾勒,可用于描述用户相关的兴趣、特征、行为及偏好[3]。用户画像加强调用户的主体地位,凸显用户的特定化需求[4]。了解广告营销的人都知道,确定目标受众是营销的第一步。传统线下广告可以根据不同场合大概确定一个人的社会背景,而在互联网这个虚拟世界中,隐藏在幕后的用户拥有太多可能性,因此在互联网营销逐渐占据主流的时代,互联网产品服务的人群画像愈加重要[4]。对企业而言,用户画像的应用主要分为两个方面:对内指导产品的完善以及对外推动精准化的营销[5]。用户画像是为了准确反映目标用户的属性以及偏好,使企业能够针对这些用户的特点、偏好,以此来调整产品的经营方式,达到目标用户的选取与推送内容的精准投放,从而达到提升用户体验的效果,从而提升平台的用户粘性,实现企业精准化营销的目的。用户画像在互联网中应用较多,如应用运营商数据进行用户征信的客户画像研究[6]。最近几年,网络安全应用领域也有用户画像相关工作成果,如使用日志行用户画像[7]。基于用户使用unix命令的行为进行画像研究[8]。以及在图书馆信息服务推送的应用[9]
本文采用网络爬虫技术,爬取网络用户行为信息作为原始数据,选择k-means算法对真实的数据进行统计和分析,建立用户画像模型,以制定个性化的推荐版块与推送服务,从而提升用户粘性,在研究的基础上,力求为软件开发商和做出更好的营销提供建议。
2. 研究的基本内容和问题
研究的内容:主要是用网络爬虫爬取技术,获取用户网络行为的原始数据,选择k-means算法对真实的数据进行统计和分析,以制定个性化的推荐版块与推送服务。研究的目标:在建立用户画像模型后,制定app个性化的推荐版块与推送服务,从而提升用户粘性,为移动端软件开发商和运营商做出更好的营销提供建议。拟解决的关键问题:
网络爬虫技术数据的爬取;机器学习算法的运营。
3. 研究的方法与方案
研究方法及实验方案:先利用网络爬虫技术,爬取用户行为的原始数据,利用K-means算法,进行用户画像建模,对用户进行标签分类,从而制定个性化推荐服务系统。技术路线:图1.技术路线图可行性分析:技术可行性:Python不仅非常适合成为交互式的分析环境,也非常适合开发稳健的系统,可以进行数据可视化,数据挖掘分析,大部机器学习的算法已有相应的包可供调用(Wes McKinney,2017)。分析可行性:通过对客户信息及微博文本数据的分析,判别客户的兴趣偏好,对客户贴标签分群,根据客群特征实现精准微博内容特送及监督管理。现实分析的可行性:我国互联网移动端APP的竞争日益激烈,高净值忠诚客户出现明显下滑,客户的忠诚度也在随着竞争环境变化不断降低,根据客户的行为特征,判别客户的稳定性,进而进行客户分群,根据群体客户特征实现精准营销,从而促进移动APP可持续性发展。
4. 研究创新点
1.此次研究选择新浪微博的用户作为研究对象,新浪微博为当下热门的社交软件,也是最具有发展潜力的社交型APP,该应用覆盖年龄及人口分布较广,分析研究具有典型性。其次网络爬虫技术与用户画像模型适用性广泛,同样可以应用到其余移动网络APP平台。2.目前互联网数据势头发展猛烈,人们的衣食住行都离不开网络,网络存储了人们生活中大量的数据信息。若能有效将用户行为进行整理,挖掘背后隐藏的信息与规律,就能为移动互联网终端制定合适的营销策略,提高用户粘性。
5. 研究计划与进展
研究计划:2020年2月10日——2020年3月10日:学习python技术,打基础,提升自己编写代码的能力。
阅读相关文献,根据本模型的实际意义,制定用户画像模型原始数据获取的维度以及标签制定的个数。
2020年3月11日——2020年4月10日:利用网络爬虫技术爬取新浪微博用户信息及微博文本内容,编写用户画像模型的代码,并思考如何选取角度合理制定推送服务。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。