基于随机森林的时间序列分类算法研究开题报告

 2021-12-28 20:19:09

全文总字数:4555字

1. 研究目的与意义(文献综述)

时间序列数据广泛的存在于社会生活的方方面面,随着时间的推移,数据量越来越多,如工业、网络、通信、交通、医学等领域。时间序列分类问题与传统分类问题之间的主要区别在于,间序列数据的各个变量之间具有次序关系,而传统分类问题认为属性次序是不重要的,并且变量之间的相互关系独立于它们的相对位置。因此,间序列分类问题已成为数据挖掘领域的特殊挑战之一,其主要面临着三个方面的挑战。首先,对于传统分类器而言,输入数据为特征向量,然而时间序列数据并没有明确的特征;其次,尽管可以在时间序列数据上进行特征选择,但由于其特征空间维度非常大,特征选择的过程会花费很大的计算量;最后,在某些应用中,除了精确的分类结果之外,我们还希望得到具有可解释性的分类器,但由于其没有明确的特征,建立一个可解释性的分类器是非常困难的[1]。本文将围绕这三个问题深入研究如何建立具有可解释性的时间序列分类器。

随机森林算法在当前的很多数据集上,相对其他算法有着很大的优势,表现良好,实现比较简单,并且单个决策树是可解释的[2];shapelet是时间序列中最具有辨别性的子序列[3,4],已经被证实是时间序列分类任务的重要方法,通常嵌入在基于shapelet的决策树中,但目前的方法要么过于缓慢,如学习时间序列shapelets[5]或shapelet变换[6];要么过于不准确,如快速shapelets[7],同时时间序列shapelet枚举计算开销昂贵,除了决策树学习算法难以有效地处理高维数据外,严重限制了基于shapelet的决策树学习在大型(多元)时间序列数据库中的适用性。

国内外的研究中,已经有多种算法被设计来进行时间序列分类(包括单变量及多变量时间序列),如nearestneighbours、shapelet trees[8,9]、fast shapelets、shapelet transformation、logical shapelet[10,11]等,但是这些算法在许多方面都存在着不足之处,比如cdtw(dynamictime wrap)等算法的预测性能较差,lts(learningshapelets)等算法的计算开销较大,同时有些算法可解释性不足。因此有必要设计一个算法使其具备优秀的预测性能,较小的计算开销及高可解释性等多种优点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

一、研究目标

综合运用嵌入辨别性子序列shapelet决策树以及随机森林算法,设计研发基于随机森林的时间序列分类算法,进一步提高分类问题预测精度,降低分类计算开销,增强算法可解释性。

二、研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1月11日-1月20日

查阅参考文献,明确选题;

1月21日-2月15日

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] christophmolnar. interpretable machine learning: a guide for making black box modelsexplainable[m]. bookdown, 2019.1.

[2] l.breiman. random forests[j]. machine learning, 2001, 45(1):5-32.

[3] ye, l., keogh, e.. time seriesshapelets: a new primitive for data mining[c]. in proceedings of the acm sigkddinternational conference on knowledeg discovery and data mining, 2009:947-955.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。