基于百度语音识别服务的盲人辅助信息搜索系统开题报告

 2022-07-19 09:58:26

1. 研究目的与意义

随着信息技术的快速发展,人们获取信息的来源越发广阔,但是盲人的信息获取障碍程度是最高的。人感知的主要途径就是视觉,可供盲人使用的信息资源非常有限,所以盲人群体在整个社会信息交流中一直处处于劣势。在计算机网络应用之前,盲人主要的信息来源主要有以下几种途径:(1)盲人文献,即盲文点字刻印的图书、工具书以及期刊等,通过触摸阅读;(2)有声文献,使用相关播放设备收听由专人朗读录制的磁带、光盘等;(3)广播和部分影视节目;(4)身边口头信息获取。综上,盲人群体信息获取困难主要存在以下几个方面:1.盲人专用文献品种较少,信息获取选择面狭窄。盲人使用的专用文献需要经过专业、特殊的团建处理和人工加工,把信息内容转化成盲人所能感知的媒介形式。专用文献在人力、物理和时间上都需要消耗很大,导致价格偏高,同是由于盲人群体整体在经济承受力上相对处于弱势,购买力有限,盲人文献生产较少。

2.盲用文献使用效率低。盲文书籍采用点字表示,需要特殊的纸张承载信息,所以同样的信息,盲文文献的体积质量都是普通文献的若干倍,阅读过程也需要耗费大量的时间。生活中遇到的困惑问题不能及时查找到所需答案,易导致盲人群体参与信息社会交流的障碍。

3.盲用文献信息量有限。日常非正式的信息获取,盲人群体还是要依赖人际交流,需要他人的语音提示,但遇到个人隐私问题可能就需要牺牲个人隐私求助他人。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究内容:

本课题旨在利用第三方平台百度语音实现信息的语音检索,为盲人群体提供简单便捷的信息获取渠道,更好地服务盲人群体。

(1) 实现语音到汉字的转化功能;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

语音识别技术发展现状-国外研究

国外语音识别工作可以追溯到二十世纪五十年代att贝尔实验室的audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(lpc)技术和动态时间规整(dtw)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

  实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(carnegiemellonuniversity)的sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

2022年11月1日-11月10日熟悉毕设设计流程,确定选题方向

2022年11月11日-11月30日 确定毕业设计题目

2022年12月1日-12月31日查阅相关材料,撰写并修改开题报告

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]杨梓艺.人工智能语音系统的实现[j].网友世界.2016(04)

[2]李伟.基于内容的汉语语音检索技术研究与系统实现[d]2011.4

[3]汪溪.谈语音识别技术在图像检索中的应用[j].2014.7

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。