1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述
一、研究背景
随着计算机技术的迅猛发展,人类社会已步入了大数据时代。每分每秒都有海量的数据在互联网上进行交换,如何从海量的数据中提取出有价值的信息已成为人们关注的焦点之一。以机器学习、深度学习为主要特征的数据挖掘技术[1]就在这样的背景下兴起了。近几年,机器学习与深度学习技术已在金融、生物、统计等领域被广泛采用;在医学领域,机器学习与深度学习也成为最有潜力的疾病监测方法之一。
癫痫,在我国俗称羊癫疯或羊角风,是一种常见的慢性神经系统疾病。根据世界卫生组织(WHO)的统计,全世界有五千万人口罹患癫痫症,每年大约有240万的新增病例[2]。目前癫痫还没有有效的治愈方法[3],大部分患者仅能通过药物控制病情的发展。癫痫发作的根本原因是大脑的电生理失常,即神经元的超同步放电活动引发人们在知觉和机体活动上的功能异常[4]。癫痫一旦发作,患者会出现意识丧失、短时间内肌肉大范围、反复性的抽搐等症状,其突发性与不确定性必定会给患者带来严重的不适及短期的行为失常,甚至会导致生命危险。由于癫痫发作的严重危害性,对癫痫的诊断始终是生物医学领域的重要研究内容之一。
快速、精准的癫痫检测方法可以帮助患者及时利用抗癫药物进行介入治疗,从而减少癫痫发作给患者和社会带来的潜在危害。脑电图(Electroencephalography,EEG)是脑电信号的一种常用的记录手段,现已广泛运用于脑部病症的诊断中。通过放置在头皮的电极,EEG可以测量紧邻皮层的神经元树突的电位并直接记录大脑皮层的电活动。使用EEG进行诊断的主要缺点是,需要耗费大量的时间和精力,同时还要求专业知识的积累,医务人员需要对EEG诊断进行良好的训练,才能保证可靠的诊断结果。在诊断过程中引入计算机辅助诊断方法(CAD)可以节约临床医生的时间和精力,为患者的诊疗赢得了宝贵的时间,同时也使诊断结果更具有客观性。
二、国内外研究现状
EEG因其低成本、无创性[5]在临床医学中被广泛用作癫痫诊断方法。然而,通过人工检阅EEG的方式进行癫痫诊断是十分耗时的,医务人员需要筛查大量持续数小时乃至数日的EEG记录。为了减轻医务人员的负担,癫痫的检测需要一种自动化系统[6][7][8],以在录的EEG信号作为系统的输入,输出是一个正常或发作的分类标签。系统的核心是可靠的分类检测算法。近年来,越来越多的研究人员投入到计算机辅助脑电图诊断领域的研究中[9][10],他们利用时域方法[11]、频域方法[12]、时频域方法[13]以及非线性方法[14]从EEG信号中提取特征,并结合机器学习方法,如k近邻、随机森林、支持向量机、线性判别分析、逻辑回归等,初步解决了癫痫脑电的分类检测问题。但机器学习方法在特征提取时,受人为因素影响较大,对同一模型使用不同特征得到的检测结果可能大相径庭。这大大提高了应用机器学习的门槛。深度学习(DeepLearning)作为机器学习中的一个新兴的研究方向,在诸多领域内被广泛应用,如:计算机视觉、语音识别、自然语言处理等。与传统的机器学习方法相对比,深度学习避免了繁琐的人工设计特征的过程[15],通过多个额外的隐含层自动地提取出数据中更抽象的特征,在系统进行判别时,显著地减小了人为因素的影响。Acharya等人[4]和Ullah等人[5]分别利用CNN在德国Bonn大学癫痫研究中心发布的EEG数据集(简称Bonn数据集)上分别取得了88.7%和99.1%的分类准确率。在同样的数据集上,Talathi[3]利用RNN取得了99.6%的分类准确率。Schirrmeister等人[16]分别使用深层卷积神经网络和浅层卷积神经网络在TUH癫痫脑电数据集上取得了82.6%和82.1%的准确率。在针对不同脑电数据集的研究中,研究人员尝试了大量的方法,这也说明了更有效的癫痫检测方法还有待发掘。
三、研究目标和内容
本课题针对天普大学(Temple University Hospital, TUH)医学院的公开脑电信号数据集,利用Python语言,设计并实现一个能够提升EEG信号进行分析与疾患预测的脑电信号预处理系统。获得分类的高准确率和高召回率是本次课题的重要研究目标之一。鉴于 Bonn 数据集样本范围过小,本课题研究针对 2017 年由 TUH 发布,数据覆盖面更加广泛的TUH癫痫脑电数据集进行。
目前,大部分针对癫痫 CAD 系统的研究工作主要集中于区分正常与癫痫发作的脑电信号,这是一种典型的二分类问题;另有部分研究则针对正常、癫痫间期(癫痫患者未发作时)、癫痫发作脑电信号的三分类问题展开。从临床的角度来说,癫痫患者在未发作时的脑电信号与正常人的脑电信号无明显的差异,有些研究将正常信号与癫痫间期信号归为一类信号进行处理[5]。同时,TUH多通道脑电数据集仅提供了两类标注(发作与未发作),因此本课题的研究将发作间期视为正常信号进行处理。
本次课题的研究内容主要包括三个方面:(1)TUH 癫痫脑电数据集预处理(2)模型的设计与优化;(3)实验数据处理与分析。上述内容中,TUH 癫痫脑电数据集预处理和模型的设计与优化是本次课题研究的核心内容。
图1 系统结构图 |
在本次课题实验中,首先对TUH癫痫脑电数据进行预处理;之后利用 CNN、RNN 构建神经网络模型在预处理所得数据集上进行预测分类,得到准确率及召回率;在此基础之上,对原有模型进行优化,再次对模型进行评估分析。
四、分析方法概述
1.时域方法
时域方法是临床中最常用的癫痫脑电分析方法。医务人员一般通过观察时域信号中是观察时域信号中是否存在如尖波、棘波等疑似癫痫状的脑电形来对患者如尖波、棘波等疑似癫痫状的脑电形来对患者情况做出诊断,这种方法的优点很明显:操作简单,可以非常直观地分析脑电信号特征及其意义。模板匹配法是典型的时域检测方法,其检测原理为:将预置的癫痫脑电数据与待信号进行比对,计算它们的互相关系数,若高于设定阈值则表明被检信号中包含与癫痫相似的特征。这种方法在运用中会遇到各种实际问题:由于脑电信号的多样性与个体差异性,无法确定一个普世的检测模板样本,而且检测的灵敏度与与人工设定的阈值高度相关,因此该方法的实际效果难以保证。除模板匹配法外,时域方法还包括了线性预测和成分分析。线性预测根据系统的当前输入以及前次输出对系统的当前输出进行预测。
2.频域方法
频域方法又被称为频谱估计方法。在实际中,EEG信号并非稳态信号而且具有较强的随机性,在利用傅里叶变换对EEG信号进行频域分析时,是以假设EEG信号具有平稳性为前提的。功率谱是频域分析方法中最常用的手段之一,通过对时域EEG信号进行傅氏变换,可以得到功率与频率的对应关系,从中可以非常方便地观测到EEG在各个频段的能量分布情况,这也是癫痫诊断中常用的手段之一。一般来说,频谱估计方法又分为非参量法和参量法。非参量方法首先从时序数据估算出自相关系数,之后对自相关序列进行傅里叶变换得到功率谱估计。Welch法是一种常用的时序信号功率谱估计方法,它的工作原理是:将时序信号划分成一系列片段,每个片段被称作一个周期图,最后对周期图按时间进行均分来确定功率谱密度的估计值。
3.时频域方法
如上一节所述,EEG信号并非稳态信号,在对它进行频域分析时要求对脑电信号进行切片处理,然后假定各信号片段是平稳的。可是这种处理方式也会带来很大的问题:丢失了脑电信号中一部分瞬时频率所包含的重要信息,而这些信息对癫痫的诊断和预测是十分关键的。故此了融合了上述两类方法的时频域方法。时频域方法主要包括了小波变换法以及希尔伯特-黄变换法。利用小波变换能够从EEG信号中提取出小波系数,这些系数可以用来描述癫痫脑电活动的特征。这种方法在EEG信号的低频及高频分量处均具有不错的分辨率,经常在非稳态信号的处理和分析中使用。希尔伯特-黄变换是另一种针对非稳态信号的时频域分析方法,它的基本工作原理为:将信号分解为多个固有模态函数以提取出瞬时频率信息,之后对每个固有模态函数做希尔伯特变换来追踪瞬时频率以及信号振幅的变化,最后利用希尔伯特加权频率区分正常和癫痫脑电活动。
2.4非线性方法
尽管频域分析方法可以有效地捕捉到信号中振幅的规律,但它们并不能很好地分析信号中隐含的非线性特征。一般来说,生物系统可以通过非线性方法进行表征,EEG亦是如此。EEG是多个频率不同的正弦分量组成的,这些正弦分量之间存在着非线性作用,这导致了更多差频或和频分量的产生。检测EEG信号中的非线性特征能够更好地分析脑部和中枢神经系统的状态信息。
2.5 ICA (Independent Component Analysis, 独立成分分析)
ICA是一种分离和定位已添加到一起的独立信号的技术。它是针对鸡尾酒会问题而创建的,在该问题中,您尝试将相关对话与鸡尾酒会中其他对话的噪音隔离开来。
图2 ICA与PCA的比较 |
对于源头分离,ICA通常被认为是最佳的,因为它不假设单个信号的正交或高斯行为,而这是其他技术所依赖的不合理假设。无论如何,ICA仍然假定信号是静态的,并且单独的信号在统计上是独立的,这可能不适用于某些神经信号。对于伪影校正,ICA用于分离组件,以便从眼睛运动或心跳中识别伪影。这些具有特征形状,通常可以自动识别。该技术通常被认为是最好的,因为它不假设单个信号的正交或高斯行为,而这是其他技术所依赖的不合理的假设。ICA适用于EEG和EMG,比简单的PCA(Principal Component Analysis,主成分分析)更为有效,后者假设所有信号都是正交的,并创建了一系列正交基向量,其中每个向量都将占尽可能多的差异。结果,当使用PCA时,第一个向量的幅度明显大于所有后续向量。当信噪比(SNR)低时,这些后续向量中的重要信息可能会丢失。
2.6深度学习
大多数现代深度学习模型都基于人工神经网络,尤其是卷积神经网络(CNN),尽管它们也可以包含在深度生成模型中分层组织的命题公式或潜在变量,例如深度信念网络和深度生成器中的节点玻尔兹曼机器。
在深度学习中,每个级别都学习将其输入数据转换为稍微抽象和复合的表示形式。在图像识别应用程序中,原始输入可以是像素矩阵;第一表示层可以提取像素并编码边缘;第二层可以组成并编码边缘的布置;第三层可以编码鼻子和眼睛;第四层可以识别出图像包含面部。重要的是,深度学习过程可以自行学习将哪些功能最佳地放置在哪个级别上。(当然,这并不能完全消除手工调整的需要;例如,不同数量的层和层大小可以提供不同的抽象程度。)[17]
深度学习中的深度一词指转换数据所经过的层数。更准确地说,深度学习系统具有很大的学分分配路径(CAP)深度。CAP是从输入到输出的转换链。CAP描述了输入和输出之间的潜在因果关系。对于前馈神经网络,CAP的深度是网络的深度,并且是隐藏层数加一层(因为输出层也已参数化)。对于递归神经网络,其中信号可能会多次传播穿过一层,因此CAP深度可能不受限制。[18]尚无公认的深度阈值将浅层学习与深度学习区分开,但大多数研究人员都同意深度学习涉及的CAP深度高于2。深度2的CAP在可以模拟任何功能的意义上已被证明是通用近似器。[19]除此之外,更多层不会增加网络的函数逼近器功能。与浅层模型相比,深层模型(CAP>2)能够提取更好的特征,因此,额外的图层有助于有效地学习特征。
可以使用贪婪的逐层方法构造深度学习架构。[20]深度学习有助于弄清这些抽象,并找出哪些功能可以提高性能。[17]对于有监督的学习任务,深度学习方法通过将数据转换为类似于主成分的紧凑中间表示形式,并消除分层表示中的冗余,从而消除了特征工程。
深度学习算法可以应用于无人监督的学习任务。这是一个重要的好处,因为未标记的数据比标记的数据更丰富。可以无监督方式训练的深层结构示例包括神经历史压缩器[19]和深层信念网络。[21]
参考文献:
[1]何清, 李宁, 罗文娟等. 大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04):327-336.
[2] Acharya U R, Sree S V, Swapna G, et al. Automated EEG analysis of epilepsy: A review[J]. Knowledge-Based Systems, 2013, 45(3):147-165.
[3] Talathi S. Deep Recurrent Neural Networks for seizure detection and early seizure detection systems [EB/OL]. https://arxiv.org/abs/1706.03283, 2017.
[4] Acharya U R, Oh S L, Hagiwara Y, et al. Deep convolutional neural network for the automated detection and diagnosis of seizure using EEG signals[J]. Computers in biology and medicine, 2017(90):88-111
[5]Ullah I, Hussain M, Qazi E, et al. An automated system for epilepsy detection using EEG brain signals based on deep learning approach. Expert Systems with Applications. 2018, (107):61-71
[6]刘国权.基于发作前期 EEG 的癫痫自动诊断系统的研究与设计[D]. 南京:南京邮电大学, 2016.
[7]丁木涵, 王春兴. 基于卷积神经网络的癫痫脑电自动分类[J]. 电脑知识与技术, 2017, 13(34):176-177 193.
[8]Miljanovi V, Tjepkema-Cloostermans M, Putten M V. O20 Deep learning with convolutional neural networks for detection of interictal epileptiform discharges[J]. Clinical Neurophysiology.2017, 128(9):e186.
[9]Fergus P, Hussain A, Hignett D, et al. A machine learning system for automated whole-brain seizure detection[J]. Applied Computing Informatics. 2016, 12(1):70-89.
[10] Subasi A, Kevric J, Canbaz M A. Epileptic seizure detection using hybrid machine learning methods[J].
Neural Computing Applications. 2017, (1):1-9.
[11]单玉华. 一种基于时间序列参数的癫痫脑电分类[J]. 科技资讯, 2017, 15(3):251-253.
[12]韩凌, 王宏, 李春胜. 基于多变量希尔伯特频域模型的癫痫发作预测[J]. 东北大学学报(自然科学版), 2015, 36(10):1383-1387.
[13]耿东云. 基于改进小波神经网络的自动癫痫检测[D]. 济南:山东大学, 2016.
[14]马莉, 杜一鸣, 黄光等. 基于样本熵与人工神经网络的癫痫发作预测初步研究[J]. 中国生物医学工程学报, 2013, 32(2):243-247.
[15]孙志远, 鲁成祥, 史忠植等.深度学习研究与进展[J]. 计算机科学, 2016, 43(02):1-8.
[16] Schirrmeister R T, Springenberg J T, Ldj F, et al. Deep learning with convolutional neural networks for EEG decoding and visualization:[J]. Human Brain Mapping. 2017, 38(11):5391-5420.
[17]Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 17981828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338.
[18] Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637.
[19] Jrgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Online.
[20] Martinez-Del-Rincon J, Santofimia M J, Toro X D, et al. Non-linear classifiers applied to EEG analysis for epilepsy seizure detection[J]. Expert Systems with Applications. 2017 ,(86):99-112.
[21] Mattinerie J, Adam C, Quyen ML V, et al. Can epileptic seizure be anticipated by nonlinear analysis? Nature Medicine. 1998, (4):1173-1176.
2. 研究的基本内容、问题解决措施及方案
利用现代计算机技术,实现脑部疾患的计算机辅助诊断是当前人工智能技术应用的重要内容之一。脑电信号已被广泛运用在对脑部病症的诊断中,脑电图(electro- encephalogram,eeg)是脑电信号的一种常用的记录手段。通常情况下,脑电信号具有典型的随机特征,可认为是标准的随机信号;另一方面,脑电信号在采集过程中,一般均会引入较为广泛的噪声信号。
本课题针对天普大学医学院(temple university hospital, tuh)的公开脑电信号数据集,利用python语言,设计并实现一个能够提升eeg信号进行分析与疾患预测的脑电信号预处理系统。要求学生在掌握现代信号分析与处理及深度学习知识的基础上,实际脑电信号的预处理工作。
完成本次课题,需完成以下基本内容:
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。