面向在线直播弹幕的情感分析开题报告

 2022-01-12 21:01:08

全文总字数:3336字

1. 研究目的与意义(文献综述)

根据cnnic发布的《第44次中国互联网络发展状况统计报告》,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万,占网民整体的50.7%。斗鱼、虎牙等直播平台日益兴起,成为了很多年轻人日常生活的重要组成部分,其中游戏等板块深受年轻人的喜爱。电商、短视频等平台看重直播的盈利潜力,纷纷布局直播领域,其中以淘宝直播为例,李佳琦的淘宝直播带货也为淘宝增加了商品销售量。碎片化、精细化的短视频内容与及时互动的直播方式相融合,共享用户流量,实现优势互补。例如,快手推出独立直播app,抖音短视频全面开放用户直播权限,不断探索“短视频 直播”的运营体系。

而直播弹幕作为直播平台主播与观众、观众与观众的重要交互方式,则具有很多的研究价值。从弹幕内容来看,由于受到自身字数的限制,弹幕多以碎片化的形式出现,弹幕赋予了受众发表评论的自由,不受地域的限制。而直播弹幕区别于其他弹幕的最大特点就是实时性,观众根据主播的直播内容或其他观众的弹幕来发布弹幕以表达自己的情绪。但正是由于弹幕的自由与随性,没有标准的约束,发布弹幕的人素质良莠不齐,直播弹幕中既有良性互动的和谐弹幕,又有不文明、低俗弹幕或者其他负面语言、过激言论。

优质的弹幕能够提高观众的观看体验,例如游戏直播中主播与观众的关于游戏的良性互动、带货直播中观众与主播之间的提问与回答、短视频平台直播中主播与观众之间相互分享日常生活琐事等等,都可以提高观众的观看体验,给观众带来身心愉悦的感觉。负能量的弹幕,不仅给主播或者其他观众带来了困扰,而且可以上升为“带节奏”,给主播、观众甚至直播平台带来不好的影响,因此,对于直播弹幕的情感分析具有重要的意义。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

按照数据集预处理、训练、预测、部署的步骤完成设计。对数据集进行分词等预处理,把数据集训练为词向量,选取不同的神经网络和分类器作为组合,将词向量嵌入到不同的组合中进行训练,得到最后的分类结果,根据分类结果选择最佳的模型组合。

首先爬取弹幕数据,人工将爬取的弹幕数据分为正向弹幕和负向弹幕并打上标签。采用jieba分词,对弹幕数据进行分词,同时根据网上找到的停用词表等去掉标点符号和无意义的停用词等,完成预处理的过程。这些预处理后的弹幕数据,其中一部分用于训练词向量,另一部分用于作为测试集测试分类效果。

选择使用word2vec词向量,通过网络上开源的中文预训练词向量或者自己爬取的弹幕数据训练词向量。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2020.3.1——2020.3.7 学习爬虫的相关技术,对直播弹幕进行爬取工作。

2020.3.8——2020.3.11 对弹幕数据集进行分词,包括去掉标点符号,去掉无意义的停用词等。

2020.3.12——2020.3.18 研究使用word2vec训练弹幕数据为词向量,考虑是否使用网上开源的词向量。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 何明. 面向在线视频弹幕数据的挖掘方法研究[d].中国科学技术大学,2018.

[2] 庄须强. 基于深度学习的弹幕评论情感分析研究[d].山东师范大学,2018.

[3] 洪庆,王思尧,赵钦佩,李江峰,饶卫雄.基于弹幕情感分析和聚类算法的视频用户群体分类[j].计算机工程与科学,2018,40(06):1125-1139.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。