基于Transformer TTS的语音合成方法研究开题报告

 2021-12-26 13:33:29

全文总字数:4606字

1. 研究目的与意义(文献综述)

语音是人类通过发声器官发出了来的具有一定意义的、用来进行社交的、可以被理解的声音。如果说语音识别的目的是为了使计算机能够“听”懂人说的话,那么语音合成技术的应用就是使计算机能够“说话”。和语言识别相比,语言合成的技术相对说来要成熟一些,但由于不同的语言体系有着不同的发音技巧,就算是同一种语言在不同的国家也有着细微的差别,因此高质量语音合成是有一定的难度的,想让合成出来的语音能够听上去像从人类口中说出来的话那样没有违和感是需要一定的技术含量的。所以,语音合成技术是该领域中近期最有希望产生突破并形成产业化的一项技术。

语音合成在人机交互中具有重要的地位,是智能计算机研究的主导方向和人机语言通信的关键技术之一,语音合成技术一直受到各国科学界的广泛关注。现如今,随着语音合成技术的发展与技术突破,其对计算机发展和社会生活带来的便捷也日益凸显。以语音合成技术开发出的产品应用领域十分广泛,如google翻译百度翻译等翻译网站中用到的句子发音功能,如苹果的ios系统中的siri助手等,除此之外还有各行各业语音播报功能都使用到了语音合成技术。而对于语音合成技术来说,基于文本能够直接生成音频数据是语音合成的目标。

纵观语音合成技术的研究已有二百多年的历史,但是真正有实用意义的语音合成技术是在近代计算机技术和数字信号处理技术的发展而发展的,主要是能让计算机产生高清晰度、高自然度的连续语音。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

研究内容:

google于2017年提出的transformer结构颠覆了整个自然语言处理领域,至此,处理序列的模型不仅仅限于cnn和rnn,又多了transformer,并且transformer在许多方面相较于cnn和rnn都有很大的提高。transformer最先用于神经机器翻译领域,之后又在许多领域证明了其强大的性能。本课题的研究内容即综合transformer以及tacotron2模型两者的优点得到transformer tts模型,实现由生成梅尔频谱图;然后基于现有的声码器,选择合适的声码器,实现由梅尔频谱图生成音频;另外针对于transformer tts模型存在的缺点,例如推理慢以及参数爆炸,进行优化。

目标:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1周---第2周:查阅、学习相关文献资料,完成文献摘要。

第3周---第6周:了解基于transformer模型与tacotron2模型的基本原理;学习所需的python语言编程技术;进行初步的实验编程。

第7周---第9周:在初步的原理实验通过后,根据具体的应用要求,编写、调试功能较为全面的语音合成程序;实现基本的语音合成功能。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] shen j, pang r,weiss r j, et al. natural tts synthesis by conditioning wavenet on melspectrogram predictions[c]//2018 ieee international conference on acoustics,speech and signal processing (icassp). ieee, 2018: 4779-4783.

[2] vaswani a,shazeer n, parmar n, et al. attention is all you need[c]//31st annualconference on neural information processing systems. nips, 2017: 5998-6008.

[3] li n , liu s , liuy , et al. neural speech synthesis with transformer network[j]. 2018.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。