1. 研究目的与意义
作为少数民族语言信息处理的核心技术之一,近年来维吾尔语音合成和语音识别技术取得了一些初步进步。无论是语音合成系统,还是语音识别系统,都基于一定文本集合之上的语音语料库。语音语料库的建立和完善是进行语音信息处理的基础条件。质量优良的语音合成、语音识别系统需要在语音学和语言学知识指导下科学地设计和建立语音语料库。然而,语音语料库的建立是以精心规划和选取文本语料为基础的。文本设计是语音语料库建设中的关键技术之一,它涉及的问题包括:明确需求和目的,确定语音基本单位,收集语料素材,研制语料选取算法。其目标是得到最小冗余度、最大覆盖率、科学合理的语料集。在许多语音合成和语音识别应用中,语料库文本的覆盖率至关重要,因为语料库的覆盖率越大,冗余度越小,使语料库的容量就不会太大,又能保证合成和识别的效果。覆盖尽可能多的自然语言现象则是要求语料的信息容量尽可能大。实际上,自然语言现象多种多样的,在文本选择是不可能全部考虑的。因此,很多的语料设计都与实际的合成和识别算法相结合的。
基于拼接式的语音合成方法能够提供高合成语音的自然度、可懂度,随着语音合成技术的发展语料库的规模、占用空间也越来越大,而如何进一步减少语料库的占用空间,压缩语料库及解压后的语音不失真便成了当前语音合成技术的研究热点。因此,语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。无损压缩,解码后的数据与原始数据完全一致(无失真),压缩率一般低,但是解压后产生的数据不会丢失即保持原始数据的真实性和完整性。常用的无损压缩方法有shannon-fano 编码,huffman 编码,游程编码,lzw( lempel-ziv-welch) 编码和算术编码等。语音压缩方面,adpcm 算法目前已成为很受欢迎的语音压缩算法之一,adpcm算法中它的采样率是 8khz,采样精度16bit 量化阶的保存为4位,因此压缩比为 4∶1,每秒保存或者传送大小为 32kbit。
为了节省存储空间和提高信息传输的效率 ,目前国内外已经开发出了pkzip、art、arc、lha、wi nzip等对文件进行压缩与解压的软件 ,这些软件的通用性较好,操作也比较方便 ,同时也可以对信息 起到一定的安全保护作用。然而,这些压缩与解压软件都是基于lzw码的改进算法的基础上开发的。事实上 ,哈夫曼编码作为一种变长编码技术,由于它能充分利用短码, 所以同样可以根据它来开发 相应的压缩与解压软件 , 并且这种压缩与解压软件简单易用,安全保密性能好。因此采用哈夫曼编码技术,同时结合了哈夫曼编码表的查询技术,解决了变长编码的存储困难、程序应变能力较差及程序设计比较复杂等问题。而且文件的压缩比和信息的安全性都得到很大的提高。
2. 课题关键问题和重难点
随着基于语料库的语音合成技术日趋成熟,语料库的占用空间越来越大,为了减少语料库的占用空间必须对大型语料库进行有效的压缩。同时,语音合成系统要求解压后的语音清晰自然、尽可能多地保留原始语调及韵律特征。随着压缩技术的发展出现了许多数据压缩方法。lzw 算法压缩率好,但是它不适合小文件的压缩也不适合太大文件的压缩。基于算术编码的压缩算法虽然压缩效率好,但是运算复杂、速度慢。哈夫曼压缩算法具有运算速度快、实现方式灵活、算法时空复杂度小和实用性强的特点。综合考虑以上提到的压缩方法的利弊后,选择了无损压缩中的哈夫曼压缩算法。
本课题中需要解决哈夫曼压缩算法条件,原理,适用范围的相关问题。根据用哈夫曼编码实现文件的压缩与解压的原理,如何能够用算法实现也是一个亟待解决的问题。为了实现任意文本语料的压缩与解压,除了要对语音文件中的不同字符进行哈夫曼编码外,关键问题就是要解决数据的存储问题。由于huffman编码得到的码字并不是真正的码字,而是字符串。因此,必须寻求一种办法,使得最终的语音文件是由码字置换而成的。
语料的解压过程是语料的压缩过程的逆过程,即将一个压缩语音还原成它的本来面目。因为一个压缩语音是不能够直接使用的,只有被解压后才能使用。一个被压缩的语音如果不能被解压,则这种压缩是毫无意义的。因此需要对语音库进行压缩的同时进行解压,还需考虑语音文件的安全保密性能。
3. 国内外研究现状(文献综述)
一、adpcm算法原理简介
在多媒体应用中,常见的有损压缩方法有: pcm( 脉冲编码调制),预测编码、变换编码、统计编码和混合编码是近年来广泛采用的方法。无损压缩,解码后的数据与原始数据完全一致(无失真),压缩率一般低,但是解压后产生的数据不会丢失即保持原始数据的真实性和完整性。常用的无损压缩方法有 shannon-fano编码,huffman 编码,游程编码,lzw( lempel-ziv-welch)编码和算术编码等。语音压缩方面,adpcm算法目前已成为很受欢迎的语音压缩算法之一,adpcm算法中它的采样率是 8khz,采样精度16bit量化阶的保存为4位,因此压缩比为 4∶ 1,每秒保存或者传送大小为 32kbit。自适应差分脉冲编码调制( adaptive differentialpulsecode modulation简称为 adpcm)用预测编码来压缩数据量。它结合了ad的差分信号与pcm的二进制码的方法,是一种性能比较好的波形编码。它的核心想法 是:①利用自适应的思想改量化阶的大小, 即使 用小的量化阶 ( step-size)去编码小的差值, 使用大的量化阶去编码大的差值,②使用过去的样本值 估算下一个输入样本的预测值, 使实际样本值和预 测值之间的差值总是最小 。adpcm的线性预测滤波器传输函数 p(z)是自适应的改变的, 以适应输入语音信号自相 关函数的变化。图中发送端量化器的输出为: dq(n) =xp(n)-xp(n-1) e(z) 反馈环路的输出为: xp(n-1) =dq(n) *p(z)/[1 -p(z) ] 于是得到: dq(n)=[xp(n) e(z)]*[1-p(z) ] 而在它的重构信号为 : xr(n)=dq(n) xp(n-1)=xp(n) e(z) 即它是原始语音信号的重建, 仅仅引入量化噪 声 e(z), e(z)是 e(n)的 z变换。接收端的 p(z)图 4 adpcm的工作原理 是根据受到的 反射系数的码 字, 经过解码和 levinson递 推 运算得到的, 这 就不可避免地 会引入量化误 差 。为了保证发送端的 p( z)与接收端的完全相同, 在发送端也采用由反射系数码字经解码和 levinson递推运算得到 p( z)。这样做保持了与接收端的预测器在性能上的完全一致。
4. 研究方案
以波形拼接式维吾尔语音合成系统研发为背景,在已建立的维吾尔语最小发音单位音节和音素作为合成基元的语音库基础上,对语料库中的所有音节、音素进行无损压缩,选择运算速度快,便于实现的哈夫曼压缩。在解压过程中只解压人们所需的语音单元,而不需要解压整个语料库。
哈夫曼压缩算法过程为: 统计原始数据中各字符出现的频率,所有字符按频率降序排列,建立哈夫曼树,将哈夫曼树存入结果数据,重新编码原始数据到结果数据。
(1)初始化,根据符号概率的大小按由大到小顺序对符号进行排序。
5. 工作计划
第1周:查找文献和翻译文献
第2周:撰写开题报告
第3周:系统的总体设计和规划
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。