智能语音情感性格分析系统的研究与开发文献综述

 2022-09-25 16:22:59

文献综述(或调研报告):

本课题着重于语音情感识别系统的研究与开发,经过阅读文献,了解了目前语音情感的基本理论与研究模型,以及系统实现的一种具体途径,下面将从情感描述模型、语音情感数据库、语音情感特征、情感分类算法、系统实现等几个方面介绍与本课题有关的研究现状与问题。

  1. 情感描述模型

人类的情感是一种十分复杂的心理和生理现象,很难对其进行准确的定义与描述。迄今为止,还没有一个统一的针对情感的定性和定量的测量评价标准,情感模型的构建需要依据具体的研究目的。目前,主流的情感描述模型有两种,包括离散情感模型和连续情感模型[1]

离散情感模型根据情感的纯度和原始度,将情感划分为基本类情感(主要情感或原始情感)和复合类情感(次要情感或派生情感)[2]。对于基本类情感,目前在情感计算领域较为认可的是“the big six”[3],即愤怒(Anger)、恐惧(Fear)、惊讶(Surprise)、悲伤(Sadness)、厌恶(Disgust)和高兴(Joy)。在实际应用中,中性(Neutral)亦称为无情感也常被用到,从而构成常见的七种基本情感[4]

情感也可以用连续变化的维度来表示,即任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度。目前被广泛使用的维度情感描述模型有二维的激活度-效价空间理论(Arousal-Valence Space)、三维的激励-评估-控制空间理论(Valence-Activation-Dominance Space)[4]和情感轮理论(Emotion Wheel)[5]等。以二维的激活度-效价空间理论为例,激活度描述了情感的激烈程度,效价维评价了情感的正负面程度[6]。情感状态的日常语音标签和该坐标空间可以进行相互转化,通过对情感状态语言描述的理解和估计,就可以找到它在情感空间中的映射位置。

对比两种情感模型不难看出,离散情感模型具有直观、简洁的特点,但是描述能力有一定的局限性;连续情感描述模型能够描述无穷多情感,但在定性情感状态与定量空间坐标之间的转换上还有一定难度。目前在语音情感识别领域,离散情感模型占据主流方向[2]

  1. 语音情感数据库

语音情感识别研究离不开情感语音数据库的支撑,情感语音库的质量高低直接决定了由它训练得到的情感识别系统的性能好坏。但由于语音的复杂性以及语言的多样性,目前,国内外并没有统一的建立标准,已有的情感语音数据库按照激发情感的类型可分为自然型、表演型和引导型三种类型。

(1)自然情感语料

该类型的语音来自于现实生活,是人们在现实生活中表现除的最真情实感的语音。但其获取方式十分困难,可操作性差,并且通常会涉及隐私问题。此外,自然情感状况复杂,可能包含多种情感的组合,难以应用在科研中。其替代方式是从广播中的新闻、电话会议中截取带有情感特征的语音片段来构建自然语音库[2],但这种方式仍具有繁重的工作量。VAM数据库便是由德语的脱口秀节目录制而成[6],数据的自然度较高,它包含语料库、表情库和视频库三个部分。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。