1. 研究目的与意义
21世纪的我们已经步入一个高度信息化和高度智能化的社会。诸如手机、电话、计算机网络以及卫星等各种现代化的通讯设施与设备,使得人与人几乎可以在任何时间任何地点进行通信,各种智能机器已经成为了人类生活的一部分。为了使人机交互更加方便,增加机器智能化程度,语音识别技术成为了时代瞩目的一项技术。历经国内外科家的不懈努力,语音识别技术已经从实验室走向实用,即使在各类复杂的情况之中,也能较为准确地识别出语意,从而使机器进行交互。
以20世纪50年代时贝尔实验室的第一个可以识别简单的数字的系统为标志,语音识别技术产生经历了将近70年的发展。动态时间规整(dtw)[1]和线性预测分析技术(lpc)使得语音识别取得了实质性的进展;矢量量化(vq)方法与隐马尔可夫模型(hmm)[2,3]理论运用到语音识别。hmm模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,hmm的研究和应用逐渐成为了主流。李开复研发的sphinx系统,其核心框架就是gmm-hmm框架,是第一个“非特定人连续语音识别系统”。
hmm模型又和人工神经网络理论结合。2006年hinton[5]提出使用受限波尔兹曼机(restricted boltzmann machine,rbm)对神经网络的节点做初始化,即深度置信网络(deep belief network,dbn)解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。2009年,hinton和他的学生mohamed d[6]将dbn应用在语音识别声学建模中,并且在timit这样的小词汇量连续语音识别数据库上获得成功。2011年dnn在大词汇量连续语音识别上获得成功,语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式成为目前最主流的语音识别建模方式,gmm—hmm成为传统语音识别模式。
2. 研究内容和预期目标
本课题主要学习梅尔频率倒谱系数mfccs(mel frequency cepstral coefficents)和基于动态时间规整(dynamic time warping,dtw)算法。通过对mfccs的研究来完成语音信号的时频特征提取[7],通过对dtw的学习来进行对语音信号的识别。
mfccs是一种在自动语音和说话人识别中广泛使用的特征。人通过声道产生声音,声道的形状(包括舌头,牙齿等)决定了发出怎样的声音。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素phoneme进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而mfccs就是一种准确描述这个包络的一种特征。
将一个语音分为很多帧,短时fft(fast fourier transformation)计算使得每帧语音都对应于一个频谱。将幅度谱逆时针旋转90°,将每一帧的幅度都映射到一个灰度级表示,0表示黑,255表示白色。幅度值越大,相应的区域越黑。将所有帧都拼凑起来即可得到随着时间变化的频谱图,这个就是描述语音信号的spectrogram声谱图。
3. 研究的方法与步骤
研究方法:
提取mfccs特征的过程:
1)先对语音进行预加重、分帧和加窗;
4. 参考文献
[1]杨立东, 谷宇, 张明. 语音信号特征选择优化提取仿真研究[j]. 计算机仿真, 2016, 33(2):409-412.
[2]王海坤, 潘嘉, 刘聪. 语音识别技术的研究进展与展望[j]. 电信科学, 2018.
[3]承江红, 邰超, 肖登明. 基于matlab的语音信号识别及矢量模式匹配[j]. 微计算机信息, 2012, 25(10):90-92.
5. 计划与进度安排
序号 起讫日期 工作内容
2022.3.4-2022.3.22:充分查阅相关资料,撰写并修改完成开题报告;
2022.3.25-2022.4.5:研究语音信号识别的主要技术原理,选择合适的特征提取算法和识别算法进行深入研究;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。