全文总字数:6885字
1. 研究目的与意义(文献综述)
1.1 研究的目的
肝癌是一种全球性常见的恶性肿瘤之一。近年来肝癌的新发病例呈逐年上升趋势,其死亡率在癌症相关肿瘤中位列第三位,这对人类生命健康产生了严重的威胁。相对于西方发达国家,我国肝癌发病率较高,每年有近50万的新发肝癌患者,发病人数占全球一半以上,且死亡率较高。近年来,尽管早期诊断和治疗发展很快,但肝癌的总存活率仍然很低。因此,迫切需要找到有效的肝癌诊断方法和治疗手段。
尽管目前有肝移植、手术切除、射频消融和辅助化疗等多种治疗手段可选择,但往往因为检查手段落后或不适合而导致耽误最佳治疗时机。就临床诊断而言,肝癌主要通过us、ct扫描或磁共振成像等进行诊断,而二维或三维扫描对于检测肝脏肿瘤的灵敏度仅为60%-70%,为此大批科研人员投入了大量的精力和财力来研究肝癌。
2. 研究的基本内容与方案
2.1 研究(设计)的基本内容
首先,通过对基因表达数据进行初步筛选,去除与肝癌无关的基因及冗余基因;然后,对筛选后的基因再次甄选,为减少判别时对大类的偏向,本论文拟采用基于进化欠采样和随机森林的特征选择算法,通过对大类样本欠采样,使之与小类样本构成多个平衡类数集,然后在每个平衡数据上利用随机森林通过加权计算确定特征排序;最后,通过样本划分与分类器集成方法计算提取的特征基因对肝癌的识别率,并通过分类结果的auc值反复调节确定最终选取的特征基因,使提取的特征基因对肝癌的识别率达到最高。
2.2 研究(设计)的目标
3. 研究计划与安排
1-3周:阅读相关书籍,查阅有关生物统计、特征提取、分类识别等方面的资料,明确研究的内容,了解并学习相关的理论知识方法,并完成一篇英文文献的翻译工作。填写开题报告,交于老师审阅,并修改直至定稿,提交。
4-5周:收集数据,利用软件进行简单的操作以熟悉软件,同时阅读相关文献。
6-8周:利用有关统计分析软件系统对数据进行统计建模分析,并得到初步结果。
4. 参考文献(12篇以上)
[1] raskutti b,kowalczyka.extreme re-balancing for svms:a case study[j].acm sigkdd explorations newsletter,2004,6:60-69.
[2] kun yang,jiangzhongli,hong gao,et al.the impact of sample imbalance on identifying differentiallyexpressed genes[j].bmc bioinformatics, 2006,7:8-20.
[3] 裴志利.数据挖掘技术在文本分类和生物信息学中的应用[d].吉林:吉林大学,2008.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。