1. 研究目的与意义
大数据行业的人才需求可以说是严重失衡。一边是企业大量的需求,一边是社会匮乏的人才。大数据技术在全球正在飞速发展,目前的趋势已经影响到各个行业,对这方面人才的需求也越来越大,而现在正是大数据的初步爆发阶段,根据中国商委会数据分析部统计,未来中国基础性数据分析人才缺口将达到140万。
失衡的背后,其实是一种信息上的不对等,许多大学生都通过网络来了解现在的招聘信息,但是对于一类相似的岗位,又不知道岗位有哪些需求,希望通过互联网能够发现更为全面、具体的信息。为此,采用网络爬虫技术,构造特定url,可以对这些招聘网站进行信息的提取,这样能够获取国内部分知名招聘网站发布的上万条招聘岗位信息,然后利用统计学方面的知识对获取到的信息进行分析,得到有用的市场需求条件,对大数据行业整体市场规模预测,了解大数据的就业方向,让高校毕业生更加了解就业,为统计学专业培养方案,提出合理的建议或具有指导意义的结论。2. 研究内容和预期目标
本项目要求利用网络爬虫方法获取最新的网络招聘信息,分析用人单位对大数据人才的需求情况并给出合理建议。
主要内容包括:
1.利用网络爬虫分析用人单位对大数据人才的专业背景、技术要求、就业方向、薪资待遇等方面的总体情况以及统计学专业的相关情况。
3. 研究的方法与步骤
主要借助互联网资源,参考网上开源的网络爬虫和各种网络相关的书籍、视频等信息,学习了解网络爬虫运行机制、基本原理。根据所爬取的目标网站设计自己的爬虫,利用爬虫方法获取我国近期主要城市的大数据人才需求情况,需要获取用人单位对大数据专业人才需求方向的空间分布、薪资水平、技能学历要求等信息。对获取的数据做全面的的统计分析,运用适当的可视化方法呈现分析结果;
自主学习Python语言,用Python、Java等高级程序设计语言实现相应算法,对有关爬虫的框架学习、编写、调试。得到数据后对数据预处理,数据预处理去除不完整的数据,例如有些职务的薪资未明确标出,可以采用丢弃此条数据的方式;再对地区、公司情况、行业方向等进行可视化分析。4. 参考文献
[1]李航,统计学习方法,北京:清华大学出版社,2012年1月
[2]于娟,刘强,主题网络爬虫研究综述,计算机工程与科学,2015年2月:231-237
[3]胡松涛,python网络爬虫实战 第2版,北京:清华大学出版社,2018年1月
5. 计划与进度安排
2022年3月1日-2022年3月12日查阅资料完成任务书,完成开题报告。
2022年3月15日—2022年6月4日 开始论文写作,学习网络爬虫基本机制,学习使用python,搭建scrapy环境,学习相关框架知识。
2022年3月15日—2022年4月19日 查阅资料,与导师讨论设计缺陷,并提出解决方案,完成基础代码编写。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。