全文总字数:6540字
1. 研究目的与意义(文献综述)
近年来,基于端到端的深度强化学习在游戏上取得了广泛的应用成果,包括atari视频游戏[8,13]、棋类游戏、第一人称射击游戏、即时战略游戏等。不需要人工提取特征便可完成游戏任务,在个别游戏中甚至超越了人类顶尖玩家。目前,许多公司或组织开放了深度强化学习算法的测试平台,方便研究者或工程师对自己的深度强化学习算法性能进行测试。
学习是智能体提高和改善其性能的过程。机器学习研究由计算机程序实现的智能体如何通过学习提高自身处理性能的问题。能够学习是计算机程序具有智能的基本标志。机器学习可以分为监督学习、非监督学习、强化学习三大类[1]。其中监督学习近年来相关研究较多且主要集中在深度学习领域,深度学习利用大量的有标签训练数据对神经网络进行训练,使得神经网络具备某些特定的能力,如分类、回归等,目前已经在计算机视觉、自然语言处理、语音识别等方面取得很好的效果[2]。但现实中很多问题无法提供大量的有标签数据,如机器人路径规划、自主驾驶、玩游戏等,这些涉及决策优化以及空间搜索的问题,深度学习并不擅长,但强化学习却可以有效地解决这些问题,因此,近年来关于强化学习的研究越来越受到重视。
2. 研究的基本内容与方案
2.1基本内容
1) 搭建gym开发环境,熟悉平台相关源码。
2) 编写基于强化学习的算法,并进行训练和测试工作,对算法进行评估。
3. 研究计划与安排
第一阶段(2020年1月11日-2020年1月31日):阅读强化学习文献及相关开发文档。
第二阶段(2020年2月1日-2020年2月28日):学习强化学习相关算法。
4. 参考文献(12篇以上)
[1] sutton r s, barto a g. introduction toreinforcement learning[m]. cambridge: mit press, 1998.
[2] mnih v, kavukcuoglu k, silver d, et al.human-level control through deep reinforcement learning[j]. nature, 2015,518(7540): 529.
[3] brockman g, cheung v, pettersson l, etal. openai gym[j]. arxiv preprint arxiv:1606.01540, 2016.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。