基于情感语音的心理评测技术的研究文献综述

 2022-09-25 16:23:35

  1. 文献综述(或调研报告):

1、前言

随着过去十年深度学习的发展,语音识别中已有多项突破性的改进,多个领域的模型逐渐靠近甚至突破人类要求。这些工作中的大多数使用手工设计的特征作为输入特征,例如梅尔频率倒谱系数(MFCC),感知线性预测(PLP)系数和超节段特征,并且已经证明对许多语音领域都是具有鲁棒性的。

而情感分析技术也是一个重要的研究方向,语音信号是传递情感的重要载体,语音情感分析通过映射人类情感与声学特征,完成情感的检测与分类。[1]语音情感分析有着广泛的应用前景和科研价值,比如应用于犯罪学,分析犯人的情感波动;应用于精神病学,分析病人的心理状况等等。

2、正文

在语音识别(ASR)中应用神经网络可以追溯到20世纪80年代,如ANN/HNN混合模型,但准确率很难与使用MLE准则训练的CD-HMM-HNN模型竞争。等深度学习技术迅速发展时,人们发现,在语音识别中使用深度学习技术生成的结果与传统方法相比很不一样,错误结果更能被人类从发声及听觉角度理解。[2]

Bhargava和Rose[3]使用深度神经网络(DNN)训练窗口语音波形,获得的结果仅比在同一架构使用MFCC特征略差。Sainath等人通过使用LSTM-DNN [4][5],提升基于log-Mel滤波器组的语音识别系统性能。他们观察到时间卷积层有助于减少时间变化,另一个频率卷积层有助于保持局部性并减少频率变化。

针对情感语音方面,Han Kun等人提出利用DNN来估计话语中每个语音段的情绪状态,从片段级估计构建话语级特征,然后使用ELM来识别话语的情绪,这种方法大大提高了语音信号的情感识别性能。[6]George Trigeorgis等提出了结合CNN和记忆增强神经网络直接处理基础音频时间信号的端到端模型,在RECOLA数据集上得到了很好的结果。[7]

目前情感分析的突破性进展发生在文本分析领域,openAI公司提出一种无监督学习中的情感神经元,并在Stanford Sentiment Treebank数据集上测试模型,发现模型的准确性高达91.8%,而之前最好的模型准确度为90.2%[8]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。