基于语音及图像的双模的情感识别研究文献综述

 2022-09-29 11:20:35

  1. 文献综述(或调研报告):
  2. 语音情感识别

国内外最早出现对语音情感识别开展研究是在1990年,麻省理工大学多媒体实验室构造出“情感编辑器”,能够对不同的情感信号进行处理,他们首次分析了不同类型的语音情感和基频等声学特征之间的相关性。日本东京Seikei大学提出的情感空间的概念、建立语音情感模型对语言情感识别的研究具有重要意义。国内的相关研究开始于21世纪初,中国科学院语言研究所、清华大学等科研单位分别在该领域取得了不同的研究成果。传统语音情感识别的步骤主要包括语音采集、信号预处理、情感特征提取和情感识别[1]

选择和提取合适的语音情感特征对提高识别准确率来说非常重要。尽管目前对于到底哪些声学特征参数是最重要的语音情感特征参数,在语音情感识别领域还没有一个统一的结论,但常提取的语音情感声学特征参数主要有三种:韵律特征、音质特征以及谱特征。韵律特征已成为当前语音情感识别中使用最广泛并且必不可少的一种声学特征参数。Tato等人从语音特征与三维情感空间模型之间的关系出发,研究指出若提取的情感特征信息反映的情感空间维数越多,就越能更好地区分不同的情感。韵律特征主要是反映三维情感空间模型中的“激发维”信息,语音信号中的音质特征,如共振峰、频谱能量分布,谐波噪声比等,不仅能够很好地表达三维中的“效价维(Valence)”信息,而且也能够部分反映三维中的“控制维(Power)”信息。谱特征参数是一种能够反映语音信号的短时功率谱特性的声学特征参数,如LPC、LPCC、MFCC等。其中,MFCC是最具代表性的谱特征参数,被广泛应用于语音情感识别。目前,对语音信号的特征分析主要包括语音信号数字化、时域和频域的相关分析以及Gabor变换等[2]。Bou-Ghazale等人对倒谱特征和线性谱特征在压力语音检测任务中的性能表现进行研究,发现倒谱特征的情感区分能力高于线性谱特征[3]。Nwe等人利用 HMM 作为分类器,在缅甸语语料库和汉语语料库上进行训练和测试,得到的结论却与前者刚好相反,即线性谱特征的情感区分能力高于倒谱特征[4]。因此,不同的谱特征的情感区分能力高低尚无定论。李珊等人利用深度置信网络强大的自学习能力提取声谱图深度谱特征,在柏林语料库的部分语音情感识别中取得了88.77%的平均识别率[5]。Lugger等人在研究中提取共振峰相关特征,作为声音质量特征用于语音情感识别。Li等人提取频率微扰和振幅微扰等相关特征进行语音情感识别,将识别率提高了3.6%,表明音质特征有一定的情感区分能力。

提取并选择最优的情感特征后,选择合适的语音情感分类器对于提高语音情感的识别性能尤为重要。语音情感识别本质上是一个模式识别问题,所以几乎所有模式识别的方法都可以用于语音情感识别。常用的分类器包括人工神经网络(Artificial Neural Networks, ANN)、支持向量机(Support Vector Machine, SVM)、隐马尔科夫模型(Hidden Markov Model, HMM)和高斯混合模型(Gaussian Mixed Model, GMM)等。Schuller等人结合声学特征和语言信息,比较了LDC、KNN、MLP、GMM和SVM 的性能,发现SVM优于其他四种使用方法。Pao 等人对包含生气、高兴、悲伤、厌烦和中性5种情感类型的800句汉语普通话情感语音数据库的每句语音,提取了MFCC、LPC、LPCC、LFPC等声学参数,采用四个状态的遍历离散型HMM 取得了88.7%的正确识别率。Schuller 等人测试了GMM在语音情感识别中的性能,利用四阶GMM模型,取得了88.6%的正确识别率。近年来,越来越多的神经网络模型被提出并用于语音识别研究,如长短时记忆网络、循环神经网络等。Abdel-Hamid等人利用卷积神经网络(Convolutional Neural Network, CNN)框架在TIMIT数据集上进行语音识别研究,使相对误差实现了10%以上的减少。Zhang等人提出一种前馈型序列记忆神经网络模型对语音进行建模。

2.人脸表情情感识别

人脸表情识别(facial expression recognition, FER)是情感信息处理的核心部分,也是实现人机交互智能化的重要研究内容。对人脸表情识别的研究最早在20世纪70年代,Ekman和Friesen提出了面部运动编码系统FACS(Facial Action Coding System),利用运动单元(Action Units, AU)来描述人脸表情对应的面部动作变化。之后,Suwa等人提出针对人脸表情图像序列进行处理识别,并得到深入研究和发展。传统人脸表情识别的主要步骤有:人脸表情的获取、图像预处理、人脸表情特征提取和人脸表情分类。

人脸表情特征主要包括形变特征(如几何形变、纹理变化等)和运动特征(如特征点的运动方向、距离等)。面部形变信息主要针对静态表情图像,特征提取一般采用局部二元模式(Local Binary Pattern, LBP)、Gabor 小波变换以及主动外观模型(Active Appearance Model, AAM)等。Ojala等人提出一种通过描述每个像素点和它周围像素点灰度值的大小关系,来描述图像局部纹理特征的算子,广泛应用于图像识别领域。随后提出的局部三元模式等方法均是对 LBP 的改进,以提高 LBP 的鲁棒性。运动特征信息主要适用于动态表情图像,比如能体现表情产生过程中面部特征点的运动信息的光流法。Hsieh等人提出一种约束性的改进光流法,后来研究者对比不同的表情识别方法,证实了改进后的光流法识别性能更优。Jin等人将人脸各个部分划为多个表情特征区域,以时序为基准提取各个部分的运动特征,将其组合成人脸表情特征序列进行识别[6]

目前,表情分类算法主要包括基于规则的分类、基于模板的分类、基于人工神经网络的分类、基于SVM的分类等。Ma等人在整张人脸图像上采用二维离散余弦变换作为特征检测器,构造一个前馈神经网络作为人脸表情分类器,识别率达到93.75%,Soyel等人利用由三维面部位置得到的情感特征矢量构造神经网络模型,对七种基本表情类型进行分类识别可达到98.3%[7]。Xu等人提出一种基于混合交叉支持向量机树的自动表情识别方法,在 Cohn-Kanade 人脸表情数据库上进行实验,准确率可达到96.31%。Liu等人提出基于卷积神经网络集成的人脸表情识别方法,应用于表情识别研究的分类器还包括贝叶斯分类、Adaboost、HMM、GMM 等。面部表情识别的研究已经相对成熟。

3.多模情感识别

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。