1. 研究目的与意义
在整个互联网信息中,半结构化和无结构化的文本信息占据了绝大多数部分。文本分类技术可以有效的整理和组织文本,提高信息检索的效率,挖掘出文本更具价值的深层信息,在信息过滤、信息检索、搜索引擎等相关领域有重要价值。设计并实现高性能、交互设计良好的基于机器学习的文本分类预测系统,可以有效降低用户完成分类预测任务所需的人工标注成本,提升最终分类的准确率。
2. 研究内容和预期目标
研究内容:对机器学习算法进行研究,找到一种合适的模型作为分类器,构建基于机器学习的文本分类框架,结合数据挖掘技术,对大量数据进行预处理和清洗,提高机器学习的效率,以更低的成本获取更高的准确率
3. 国内外研究现状
深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译,苹果语音工具siri,微软的cortana个人语音助手,蚂蚁金服的smile to pay扫脸技术。
2016年3月,谷歌的alphago与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,deepmind团队公布了最强版alphago,代号alphago zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈。
但是也应该看到,它毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。cnn的推动者和创始人之一的美国纽约大学教授 yann lecun在2015ieee 计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习
4. 计划与进度安排
2022.11-2022.12——学习深度学习算法,根据实际案例分析对比不同算法的成本、效率,找出较合适的算法进行深入研究
2022.1-2022.2——对算法进行深入理解,搭建框架结合数据挖掘对文本进行分析,对照分析进行改进
2022.3-2022.4——完善算法程序、进行论文撰写
5. 参考文献
[1]基于粗糙集理论和覆盖算法的模式分类方法[j]. 王伦文,张铃.计算机科学. 2003(12)[2]加权支持向量回归算法[j]. 孙德山,吴今培,侯振挺,肖健华.计算机科学. 2003(11)[3]基于主动学习的文档分类[j]. 覃刚力,黄科,杨家本.计算机科学. 2003(10)[4]用数据采掘方法获取汉语词性标注规则[j]. 李晓黎,史忠植.计算机研究与发展. 2000(12)[5]基于特征相关性的汉语文本自动分类模型的研究[j]. 张月杰,姚天顺.小型微型计算机系统. 1998(08)[6]模式分类[m]. 机械工业出版社 , (美)richardo.duda等著, 2003[7]实用多元统计分析[m]. 清华大学出版社 , ()richarda.johnson,()deanw.wichern著, 2001[8]improved boosting algorithms using confidence-rated predictions[j] . robert e. schapire,yoram singer.machine learning . 1999 (3)[9]witten ,eibe frank. ian h. . 2000
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。