英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
语音识别技术综述
Santosh K.Gaikwad 研究生 CS&IT部门 Dr.Babasaheb Ambedkar Marathwada 奥兰加巴德大学 |
Bharti W.Gawali 副教授 CS&IT部门 Dr.Babasaheb Ambedkar Marathwada 奥兰加巴德大学 |
Pravin Yannawar 助理教授 CS&IT部门 Dr.Babasaheb Ambedkar Marathwada 奥兰加巴德大学 |
摘要
语音是人与人之间沟通最突出和最主要的模式。交互在人机通信中称为人机交互界面。语言在与计算机的相互作用中是潜在的重要模式,本文主要从技术角度给出了一个语音识别的基础研究进展概述,并给出了语音识别技术的各个阶段发展的概述。在选择技术时,本文可以从它的的相对优点和缺点的角度给予帮助。在不同技术的每一个阶段都会经过比较研究。本文对未来人机交互系统发展方向的结论是使用马拉语言。
结构概述
人机界面、建模技术、语音处理,信号处理,模式识别。
关键词
分析,特征提取,建模,测试,语音处理,人机交互
1.简介
语言是人类最基本的交流方式,也是人与人之间最自然最有效的交换信息的方式。所以把自然的人机交互的语音识别作为未来的技术发展方向是合乎逻辑的。语音识别的定义是用计算机的算法程序实现将语音信号转换为序列的过程。语音信号的处理是令人兴奋的领域之一。自从20世纪60年代以来,计算机科学家一直在研究方法和手段,使计算机能够记录解读和理解人类语言。纵观几十年来这一直是一个艰巨的任务。早些年即使是最基本的问题如使声音数字化(采样)都是在一个巨大的挑战。直到上世纪80年代,第一个实际上可以破译语音的系统才被开发出来。当然这些早期系统的范围和能力是非常有限的。语言在人类的通信中占有非常重要的地位。所以人类期待和电脑实现语音交互是非常自然的,还有电脑可以识别本地语言以及用本地语言讲话。机器语音识别涉及生成字序列与已经给定的语音信号很好的匹配,一些已知的应用包括虚拟现实,多媒体搜索,自动服务员,旅游信息保留,翻译,自然语言理解和许多其他的应用程序。
1.1 语音类型
语音识别系统可以以不同的方式进行分类,比如描述它们可以识别什么类型的语言。
1.1.1 孤立词
孤立词识别的实现通常要求每句话有确定的两侧样本视窗。在一段时间内,它接受按个单词或者单个的句子。这就是有“听与不听状态”。在这种分类的情况下,孤立的话语可能是更好的名字。
1.1.2连接词
连接词系统类似于孤立词,但它允许分开的语音“在他们之间同时运行可以有短暂的暂停”。
1.1.3连续语音
当计算机判断识别内容时,连续语音识别器允许用户尽可能自然地说话。拥有识别连续语言能力的识别器是最难创造的,因为他们利用特殊的方法来确定话语边界。
1.1.4自然言语
在一个基本的水平,它可以被认为是听起来没有排练的自然讲话。拥有自主的语言能力的ASR系统应该能够处理各种各样的自然语言特征比如正在一起运行的单词。
1.2 ASR系统的分类
语音识别是一种特殊的模式识别方法。在模式识别中有两个方面,分别是训练和测试。相关的特征提取方法分类是常见的两个阶段。在训练阶段期间,分类模型的参数是使用在测试中大量的类实例(训练数据)估计的,在识别阶段,测试模式(测试语音数据)的功能每一类都与训练模型相匹配。这个测试模式被声明为属于其模型匹配的最佳测试模式。
2 语音识别技术
语音识别的目标是一台机器能够“听”,“理解”和“奉行”口语信息。 最早的语音识别系统于20世纪50年代在贝尔实验室初次被尝试,Davis, Biddulph and Balashek为一个单独的说话者开发了一个孤立的数字识别系统。自动语音识别的目标是分析,提取表征和识别说话者身份。语音识别系统工作可以分为四个阶段,1分析,2特征提取,3建模,4测试。
2.1语音分析技术
语音数据包含可以显示说话人身份的信息。因为声道,激励源和行为特征的不同这可以包含说话者的特有信息。关于行为特征的信息也嵌入在信号中可用于识别说话人。为了进一步的分析和提取语音信号,可以将帧大小分割成合理部分应用于语音分析处理阶段。语音分析技术已经做了以下三种技术的研究。
2.1.1分段分析
在这种情况下,语音分析使用帧的大小和移位10-30毫秒范围内的方法提取说话人信息。研究了用分段法提取声道信息来进行说话人的识别。
2.1.2节段分析
语音分析用帧的大小和变化范围3-5毫秒被称为亚段分析。这种技术是主要是用来分析和提取激励的特点状态。
2.1.3超音段分析
在这种情况下,语音分析是使用帧大小这项技术,这种技术主要是从说话者的行为特征来分析起特点。
2.1.4系统性能
语音识别系统的性能取决于用于说话人识别系统的各个阶段。语音识别系统的艺术形式是使用节段分析,Mel频率谱系数(mffcs),高斯混合模型(GMM)和特征提取,建模与测试阶段。在语音识别领域的实际问题是为了做出性能较好的语言识别系统,有一些其他的技术或许也必须被运用上,如下所说的hellip;hellip;
(1)非声学传感器提供了一个令人兴奋的机会,它将多模态语音处理应用在一些领域如语音增强和编码。该传感器提供了测量声门激励功能的方法,可以补充声
波形。
(2)一个通用背景模型(UBM)是一种用于说话人识别系统的模型,它代表着一般人的独特特征,当需要做出一个接受或者拒绝的决定时,可以将其与一个特定人的特性特征模型进行比较。
(3)一个多模式的语音识别体系结构为了提高整体识别性能和寻址通道的具体性能的目的已经被研制出来了。这种多模态的体系结构包括语音识别系统与MIT/LL GMM/UBM识别架构的融合。
(4)许多功能强大的语音识别系统引用了高层次特征,新的分类方法和信道压缩方法。
(5)在独立的说话人识别系统中支持向量机已经成为一种流行的和强大的工具,在支持向量机的核心系统中给出了一个特征扩展的选择。
(6)在语音识别领域中最近的一个有意义的进展是高水平的特征语言,语言关系,韵律的使用。
2.2 特征提取技术
在分类问题中的语音特征提取是关于减少输入向量的维数来保持信号的辨别力。众所周知,从发音人辨别和验证系统的基本结构来说,训练和测试向量的数目需要分类问题与给定的输入维数一起增长,所以我们需要语音信号的特征提取。
表1:特征提取性能技术清单
序号 |
方法 |
属性 |
实施规程 |
1 |
主成分分析 (PCA) |
非线性特征提取方法,线性映射,快速,基于特征向量 |
传统的,特征向量的基本方法,也称为卡亨南 - 洛维扩张;良好的高斯数据 |
2 |
线性判别分析(LDA) |
非线性特征提取方法,监督线性图; 快速,特征向量为基础 |
分类比PCA更好 |
3 |
独立分量分析(ICA) |
非线性特征提取方法,线性图,迭代非高斯 |
盲分离,使用混合非高斯分布源(特征) |
4 |
线性预测编码 |
静态特征提取法,10〜16低阶系数 |
它是用于在较低的要求下的特征提取 |
5 |
倒频谱分析 |
静态特征提取方法,功率谱 |
用来表示频谱包络 |
6 |
梅尔频尺度分析 |
静态特征提取方法,频谱分析 |
光谱分析是用一个固定的沿主观频率的分辨率规模即Mel频率尺度。 |
7 |
滤波器组分析 |
过滤器调整需要的频率 |
|
8 |
梅尔频率倒谱 (MFCC) |
功率谱是计算是通过执行傅立叶分析 |
此方法用于找到我们的特征 |
9 |
基于内核特征提取方法 |
非线性变换 |
维数降低导致更好分类和它用于冗余功能,以及改善分类错误 |
10 |
小波 |
有比傅立叶转变更好的时间分辨率 |
它取代了与频率成正比的傅里叶变换的固定带宽,这个与傅里叶变换相比在高频率下允许更好的时间分辨率 |
11 |
动态特征提取 1)LPC 2)MFCCs |
加速度和三角系数,即二、三阶导数,正常的LPC,MFCC系数 |
它被用于通过动态或运行特性 |
12 |
谱减法 |
稳健的特征提取方法 |
它是基于谱图使用 |
13 |
倒谱均值减 |
鲁棒特征提取 |
它与MFCC相似但是基于平均静态参数工作 |
14 |
RASTA滤波 |
对于嘈杂的讲话 |
这是发现在噪声中的数据特征 |
15 |
集成语音子空间方法(复合法) |
基于 PCA LDA ICA的转换 |
比现有的方法精度高 |
连续语音
窗口框架
幅度谱
梅尔频谱
梅尔倒谱
图1:特征提取图
为说话者识别(SV)的应用,梅尔频率倒谱系数(MFCC)为了提取语音特征被做出了一种新的改进。这是与原有的基于MFCC特征提取方法相比的并且最近做出了修改。工作在语音识别(SR)应用程序中采用多维焦比为绩效测量比较辨别力不同的参数方法。一些问题关于隐藏马尔可夫模型的标准方法(HMM)和来自固定的特点,基于帧的光谱(如MFCC)被讨论了。基于这些问题,一套理想的特性提出了一种改进的声学模型。我们提出了一个“零部件为基础”框架作为一种替代方式。零件模型(PBM),前期工作是基于机器视觉的。使用图形来展示与当地化频谱时间“部分”的可变形模板有关的语音模型。相对于模型语音作为固定光谱图的序列。我们讨论该模型的隐马尔可夫模型和基于分割的关系识别和描述他们如何可以被视为特殊情况的PBM。每个人的声音不同,因此古兰经声音被逐人背诵,采用MFCC我们能计算出诗句,MFCC组成的声音包括框架,窗口,离散傅里叶变换,Mel滤波器组和示逆向转换。不同的特征提取技术描述如下:
- 光谱特征,如能带能量,格式,频谱和倒谱系数为主要语音的信息。
(2)激励源特征,如间距和变化沥青。
(3)长期特征,如持续时间,信息能量行为特征。
2.3 建模技术
建模技术的目标是使用特定说话人特征向量建立语音模型。语音建模技术分为2类,语音识别和说话人识别。说话人识别技术自动识别谁在讲话是以语音信号中的个体信息集成为基础的。语音识别也分为两个部分包括相关语音和独立语音。在独立语音模式的语音识别中计算机应该忽略语音信号中说话人特定特征去提取预期的消息。另一方面,在说话人识别的情况下识别机器在声信号中应该提取说话人的特性。说话人识别的主要目的是将一个未知的语音与数据库中已知的语音信号相匹配。该系统可
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148495],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料