1. 研究目的与意义
1.1 课题研究背景及意义自贝尔发明电话以来,工程师和科学家就一直在研究语音通信,目的是发明人与人之间还有人与机器之间更有效的通信系统。
19世纪60年代,数字信号处理(ds p)开始在语音通信研究中处于核心地位。
今天,dsp技术已经让过去几十年的许多研究成果得到应用。
2. 研究内容和预期目标
2.1 研究内容设计一套具有语音识别功能的智能机器人系统,本课题要求熟悉掌握信号与系统、数字信号处理和语音信号处理的基本理论,了解c、python、matlab语言的系统设计与集成,能够使用相软硬件实现声纹识别系统。
2.2 技术要求本设计要求有一定的数学基础、编程思想和软硬件设计与实现能力。
学习和使用基于不同软硬件架构的开发工具,研究信号生成、分析与处理的技术。
3. 研究的方法与步骤
3.1 研究方法语音识别方法主要有动态时间归正技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐含马尔可夫模型(Duration Distri. bution BasedHidden Markov Model。DDBHMM)和人工神经元网络(ANN)3.1.1 DTW和VQTW是较早的一种模式旺配和模型训练技术.它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题.在孤立词语音识别中获得了良好性能。但闪其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN代替。v0技术从训练语音提取特征矢量,得到特征矢量集.通过LBG算法生成码本,在识别时从测试语音提取特征矢量序列.把它们与各个码本进行匹配。计算各自的平均量化误差.选择平均量化误差最小的码本.作为被识别的语音。但同样只适用孤立词而不逆合连续语音大词汇量语音识别。3.1.2 HMM模型HMM模型是语音信号时变特征的有参表示法.它由相互关联的两个随机过程共同描述信号的统计特性.其中一个是隐蔽的(不可观测的)具有有限状态的MarkOv链.另一个是与Markov链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markov链的特征要靠可观测到的信号特征揭示。这样.语音时变信号某一段的特征就由对应状态观察符号的随机过程描述.而信号随时问的变化由隐蔽Markov链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数.简称DHMM) 和连续隐马尔可夫模型(采用连续概率密度函数.简称CHMM)以及半连续隐马尔可夫模型(SCHMM)。一般来讲.在训练数据足够的情况下。CHMM优于DHMM和SCHMM。HMM模型统一了语音识别中声学层和语音学层的算法结构.以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起.极大地增强了连续语音识别的效果。3.1.3 人工神经网络(ANN)人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理.具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的.但ANN又不具有HMM模型的动态时间归正性能。因此。人们尝试研究基于HMM和ANN的混合模型,把二者的优点有机结合起来.从而提高整个模型的鲁棒性[61。这也是现在研究的一个热点。3.2 步骤
首先复习语音识别相关的数学基础。基础不牢,地动山摇,尤其是概率论与随机过程的内容非常关键。之后,要学习Kaldi这个经典的开源语音识别框架,配合一些经典的语音识别课本进行实践。在实践中学习语音识别技术,并开始进行论文的创作。再然后与同学老师交流完成毕业设计。最后参加答辩,迎接毕业。
4. 参考文献
[1] R. W. Lawrence R.Rabiner, 数字语音处理与应用. 2016.[2] 赵力, 语音信号处理. 2003.[3] W. X. Y. W. Liyang Chen, Yifeng Liu, “Haiyong xie. speakergan: Speaker identificationwith conditional generative adversarial network[j],” Neurocomputing, 2020.[4] D. Povey, Kaldi语音识别实战. 2019.[5] 张雪英, 数字语音处理Matlab. 2010.[6] C. J. Li Longxin, Mak ManWai, “Contrastive adversarial domain adaptation networks forspeaker recognition,” IEEE transactions on neural networks and learning systems, 2020.[7] X. W. W. Y. X. H. Chen Liyang, Liu Yifeng, “Speakergan: Speaker identification withconditional generative adversarial network[j],” 2020.[8] K. F. A. A. N. F. Gerlach Linda, McDougall Kirsty, “Exploring the relationship betweenvoice similarity estimates by listeners and by an automatic speaker recognition systemincorporating phonetic features[j],” Speech Communication, 2020.[9] B. F. W. L. Jiwei Xu, Xinggang Wang, “Deep multi-metric learning for text-independentspeaker verification[j],” Neurocomputing, 2020.[10] Y. W. C. G. H. G. J. Xu, “Guangdong bai. dilated residual networks with multi-levelattention for speaker verification[j],” Neurocomputing, 2020.[11] 王炳锡, 实用语音识别基础. 实用语音识别基础, 2005.[12] 丁勇, 李佳慧, 唐士杰, and 王会勇, “基于随机映射技术的声纹识别模板保护,” 计算机研究与发展, 2020.[13] 郑琳琳, 张雄伟, 孙蒙, 李嘉康, and 张星昱, “基于i-vector的电子伪装语音鲁棒还原方法研究,” 数据采集与处理, 2020.[14] 玲惠, 张永富, “基于声纹识别的安全保障系统设计,” 信息通信, vol. 112-114, no. 06,2020.[15] 黄荣, 噪声背景下声纹识别算法的研究. PhD thesis, 电子科技大学, 2020.[16] 张冰, 基于变长度语音数据的卷积神经网络声纹识别技术. PhD thesis, 电子科技大学, 2020.[17] 侯伯亨, “基于小波变换说话人识别技术的研究,” 西安电子科技大学学报(自然科学版), vol. 27, no. 004, pp. 437–441, 2000.[18] 刘航, 基于LSTM与聚类分析的语音分离与跟踪算法研究. PhD thesis, 广东工业大学,2019.[19] 吴哲顺, “基于协同边缘计算的声纹识别系统的研究与实现,” 广东工业大学, 2019.[20] 耿姝雅, 基于深度学习的说话人识别算法研究. PhD thesis, 西安电子科技大学, 2019.[21] 蒋晔, 基于文本无关的说话人识别技术研究. PhD thesis, 南京理工大学, 2008.[22] 勇军, “文本无关说话人识别中句级特征提取方法研究综述,” 自动化学报, 2021.[23] 俞栋, 解析深度学习:语音识别实战. 2016.[24] A. A., Z. Y., C. P., D. N., and G. J., “A complete kaldi recipe for building arabic speechrecognition systems,” in 2014 IEEE Spoken Language Technology Workshop (SLT), 2015.[25] A. Georgeff, “Modeling rational agents within a bdi-architecture,” International Journalof Environmental Studies, vol. 59, no. 1, pp. 171–172, 1991.[26] 詹新明, 黄南山, and 杨灿, “语音识别技术研究进展,” 现代计算机(专业版), 2008.[27] 苏毅, 吴文虎, 郑方, and 方棣棠, “基于支持向量机的语音识别研究,” in 全国人机语音通讯学术会议, 2001.[28] 朱淑琴, 语音识别系统关键技术研究. PhD thesis, 西安电子科技大学, 2004.[29] 雷建军, 杨震, 刘刚, and 郭军, “噪声鲁棒语音识别研究综述,” 计算机应用研究, vol.26, no. 004, pp. 1210–1216, 2009.[30] 方敏, 浦剑涛, 李成荣, and 台宪青, “嵌入式语音识别系统的研究和实现,” 中文信息学报, vol. 18, no. 6, pp. 74–79, 2004.
5. 计划与进度安排
2022年1月5日-2022年3月1日,有针对性的学习课题相关资料,学习相关学科的基础知识,学习实验所需软硬件的相关知识。
2022年3月2日-2022年3月20日,设定实验方案,采集实验数据。
2022年3月21日-2022年4月25日,进一步理论分析,进行实验,开发相关软硬件系统。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。