基于深度学习的音频自动标注方法研究开题报告

 2021-12-29 21:04:47

全文总字数:6175字

1. 研究目的与意义(文献综述)

1.1目的和意义

声音是人们在日常生活中进行信息交流时所采用的重要途径之一。人们获取的信息中大约70%来自视觉,20%来自听觉,剩余感官得到的信息量占10%。

近些年,随着音乐市场的不断繁荣,人们对音乐服务的范围要求越来越广,对音乐服务的质量要求逐渐提高。音乐检索和音乐推荐作为大数据时代的发展产物,已经逐渐走进人们的日常生活,得到了广泛的应用。音乐检索的常见方法是,根据用户输入的关键词,在数据库中寻找拥有该关键词的歌曲进行匹配。音乐推荐的常见方法是,根据用户之前的收听历史,通过歌曲间的关联关系,为该用户推荐与收听历史相似的其他歌曲。在以上两个过程中,音乐标注都有着十分重要的地位。通过标注的各类音乐标签,音乐检索系统才能将用户需求和数据库中的歌曲进行匹配,音乐推荐系统才能将数据库中的歌曲联系在一起,从而根据用户的收听历史来进行推荐。因此,音乐文件被标记的标签成为了音乐检索和音乐推荐中的根本元素。对于音乐标注而言,传统标注模型的建立往往采用以下这种方式:从一组由音频特征向量表示的歌曲出发,逐个学习每种音乐标签的标注模型,从而使其具备预测能力。从中不难看出,这种建模方式会产生很大的冗余。因此,音乐标签作为音乐检索和音乐推荐中的重要一环,对其实现自动标注具有非常重要的价值,不仅可以节约大量的人力和时间成本,也有利于音乐标签的标准化和统一化。音乐自动标注是一种预测声音信号中蕴含的音乐标签的分类任务。它需要提取出优质的声音特征,这些特征可以训练出能够正确预测音乐标签的分类器。从特征提取的角度来看,通常有两种方式。第一,通过一个完整的信号处理系统,从时域或者频域的角度计算出表示声音的相关特征。这些特征作为机器学习阶段的输入信号,进行模型训练。然而,手工挑选出合适的相关特征是存在困难的。尽管特征选择已经被广泛地应用于该领域[1],但是标签类别明晰、特征优质准确的音乐推荐系统还未真正地在市场上出现。第二,采用深度神经网(deep neural networks, dnn)自动学习到可以用来预测音乐标签的优质特征。这种方式被称作特征学习,是近些年逐渐兴起的新型方法,也是本文在进行音乐自动标注研究时主要采用的研究方法。

音乐学习对学生的长远发展来说非常重要,同时音乐也是基础教育阶段的一门必修课。音乐学科教学除了理论知识的传授之外,更要注重对学生音乐技能的培养。2011年最新版的《中小学音乐课程标准》中对此有明确阐述:要重视音乐课程内容中对演唱的姿势、呼吸方法、音准以及节奏等方面的要求。演唱技能的练习,应该着重结合演唱实践活动进行。学生在参与聆听、演唱、演奏这些实践活动过程中,获得对音乐的直接感官体验,继而进行积极主动的联想和想象,体会音乐的美感和渗透在旋律中丰富的情感,达到陶冶情操,发展个性,锻炼想象力的目的。但目前音乐教学现状并不能满足人们的期望。一方面, 由于音乐学科其本身的特殊性,一对多教学的弊端更加严重。传统的音乐学科教学属于班级授课制,每周音乐课时不多,并且要同时学习理论知识和演唱实践。尤其在基础教育阶段,学生音乐水平普遍不高,每个学生的音乐感知能力不同,学习进度有差异。教师从学生平均水平出发进行施教,一些音乐感知能力不高的学生,在课堂时间无法学会正确演唱,课下苦于无人指导。而另一些具有特殊音乐潜能的学生,不满足于音乐课本上的歌曲,希望有更多的实践机会。另一方面,边远地区音乐师资力量匮乏,学生的音乐素养得不到有效提升。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1基本内容及目标

通过深度学习实现音乐自动标注,结合相应算法实现个性化学习课程推荐,实现个性化教学系统。

具体功能如下:

  1. 选歌

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    3. 研究计划与安排

    第1-3周:完成题目调研,查阅参考资料,设计大致框架,完成开题报告。

    第4-7周:学习数据库、数据结构及简单算法知识。

    第8-9周:设计在个性化音乐教学系统

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献(12篇以上)

    1. yaslan y, cataltepe z. audio music genre classification using different classifiers and feature selection methods[c]//18th international conference on pattern recognition (icpr'06). ieee, 2006, 2: 573-576.
    2. sainath t n, mohamed a, kingsbury b, et al. deep convolutional neural networks for lvcsr[c]//2013 ieee international conference on acoustics, speech and signal processing. ieee, 2013: 8614-8618.

    3. tzanetakis g, cook p. musical genre classification of audio signals[j]. ieee transactions on speech and audio processing, 2002, 10(5): 293-302.

    4. hamel p, lemieux s, bengio y, et al. temporal pooling and multiscale learning for automatic annotation and ranking of music audio[c]//ismir. 2011: 729-734.

      剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。