基于GMM-HMM的儿童语音识别开题报告

 2021-11-23 21:08:20

1. 研究目的与意义(文献综述)

国内外研究现状

早在三十年前,美国的一些大学和研究单位就有人开始从事这方面的研究 ,先后与贝尔实验室和国际商用机器公司(ibm)等都建立了专门的实验室。到了90年代,语音识别研究的重点转向自然语言的识别处理,任务转移到航空旅行信息的索取。同时,语音识别技术不断应用于电话网络,增强话务员服务和自动化。2000年以来,人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。其中主要的理论有:声学模型—隐马尔科夫模型—深度神经网络(deep neural network,dnn),和语言模型—n-gram模型—反馈神经网络(feedbackneural network,fnn)。2006年hiton提出用深度置信网络初始化神经网络,使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮。2009年,hinton以及他的学生d.mohamed将深层神经网络应用于语音的声学建模,在音素识别timit任务上获得成功。到了2015年,百度发现深层cnn结构不仅能够显著提升hmm语音识别系统的性能,也能提升ctc语音识别系统的性能。仅用深层cnn实现端对端建模,其性能相对较差,因此将如lstm或gru的循环隐层与cnn结合是一个相对较好的选择。与此同时,ibm watson公布了英语会话语音识别领域的一个重大里程碑:系统在非常流行的评测基准switchboard数据库中取得了8%的词错率(wer)。在儿童语音识别的研究中,国内外对儿童语音库和语料库进行了深入研究,儿童语音库中的语音的来源一般有两种:朗读特定脚本的录音和自然对话的录音。国外比较有代表性的儿童语音库建设工作有:james d. miller等人建立了两套语音库,分别采用电话通道和高保真麦克风录音,其中电话录音人数为478人,麦克风录音人数为436人。说话人是5-18岁的儿童,男女比例基本相等,这些儿童中包括59个聋儿或听觉能力较差的儿童。国内比较有代表性的是中科院自动化所陈伟伟等人建立了较大规模的儿童语音语料库,并建立了标准儿童测试集,方法也均采用上述的两种方法。儿童语料库的语料的来源一般有三种:根据实际场景录音整理的语料,针对应用场景的调查问卷,网络搜索数据。目前国外较有影响的数据库有ldc(linguistic data consortium) 的cmu kids corpus和ogi(oregon graduate institute)的kids’ speech corpus。前者记录了76名6-11岁儿童的语音,共有5180个句子。后者对每个年级约100名儿童录制20分钟左右的语音,从1年级到10年级,即6-15岁,因此,该儿童语料库内容更为丰富。近些年,一些公司在儿童语音识别上都取得了重要突破,kadho是一家专注于研发自动语音识别技术以帮助孩子们能够与智能语音设备进行交流互动的创新科技公司,在2018年,kadho展示了其最新技术kidsenseedge voice a.i.,这项技术建立在对15万名儿童的语音发声的数据之上,能够更好地对儿童的语音发声进行解码,能更好地适应来自不同年龄段的儿童以及说不同语言的儿童。soapbox labs公司也构建的独有的儿童语音数据集,目前已有数千小时的儿童语音数据组成,并将其团队对儿童语音和行为模式的理解相互结合,到目前为止,公司已经发布了一个供第三方使用的英语儿童语音识别api,soapbox labs正在利用这套深度学习的算法与从事儿童教育的初创公司合作,共同开发。

设计的目的和意义:

实际生活中,孩子每天的生活娱乐,学前教育等等方面都涉及到各种机器,其中典型的就是视频播放器和音乐播放器,这些机器能充分激起孩子学习的兴趣,也能给他们带来乐趣,还在一定程度上缓解家长们的压力,不用事事都亲力亲为。让孩子自己通过机器了解知识无疑是个不错的选择,可是孩子年龄较小,许多动手操作都不一定能在机器上得到想要的反馈效果,就目前常用的按键输入以及远程遥控器遥控都对小孩子不太友好,大多数情况下,孩子都需要在父母的帮助下才能完成自己的目的,长期下来也会造成孩子对大人的依赖,而自己的多次操作不成功,往往也会打消孩子的兴趣,让他们失去再去尝试的勇气。所以引入语音识别技术技能大大缓解这个问题,孩子通过对机器说话来表达自己想要做的事情,机器通过识别来做出相应操作。但是一般的语音识别机器中只有成年人语库,对于作为语言新人的孩子的语库整理并不完备,,相应的识别操作也不完善,孩子的发音习惯和一般人来比较也有较大区别。这就导致目前的常用的具备语音识别的各类播放器大多数情况下也只能满足成年人和年龄较大的孩子,对于年龄较小,未能很好掌握语言习惯和用法的孩子,它们对机器说的话往往不能得到很好的反馈,这也让这些智能机器变得不再‘智能’,而现在要设计的儿童语音识别技术就是在一般的语音识别技术上的突破,它能拓宽语音识别技术的年龄覆盖面,在语音识别框架上对儿童语音识别系统做出设计,完成对儿童语音特征的提取与建模,加强儿童群体的人机交互体验,从而达到孩子心里所预期的效果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

设计的基本内容和目的:

(1) 预处理:对输入的语音信号进行预加重,其目的是对语音中的高频部分进行加重,增加语音高频部分的分辨率。

(2) 加窗分帧:语音具有短时平稳的特点,通过对语音进行分帧操作,可以提取其短时特性,便于模型的建立。

(3) 端点检测:利用短时平均幅度和短时过零率进行端点检测,以确定语音有效范围的开始和结束位置。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-2周:收集与课题相关的教材,期刊,论文等,熟悉相关理论知识。确定方案,完成开题报告;

第3-5周:学习并熟悉matlab编程语言,学习语音识别理论;

第6-9周:下载语料集,研究儿童语音特征提取、儿童语音模型等理论;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]gopal, srivastava s, bhardwaj s, et al. gaussian membership function-basedspeaker identification using score level fusion of mfcc and gfcc[j].2016:283-291.

[2] 王韵琪,自适应高斯混合模型及说话人识别应用[d],苏州大学,2014.

[3] 王彪,基于lpcc参数的语音识别系统[j],电子设计工程,2012,20(07):18-20.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。