基于多智能体系统的分布式博弈算法研究文献综述

 2022-09-23 16:23:11

  1. 文献综述(或调研报告):

移动网络技术的改进和单个传感设备的费用降低 已经为移动传感器网络(MSN)建立了巨大的基础。在移动传感器覆盖问题中,移动传感器智能体的任务是将自己从随机初始位置重新定位到最佳位置,传感器智能体感知、收集和处理数据,并相互通信,共同覆盖一个区域。一般来说,将所有信息传递给一个可以处理这些信息的指挥中心是不可行的,因为通信成本会非常大。因此,移动传感器的分布式控制是近年来该领域研究的重点。

本文提出了一种基于博弈论的控制算法来实现移动传感器网络( MSN )中的传感器覆盖问题。覆盖问题的复杂性和分布性,促进了博弈论的应用。解决覆盖问题的一种方法是将问题建模为一个非合作博弈模型,移动传感器独立地追求自己的目标。根据每个智能体的边际感知贡献和智能体的通信、感知和运动能量消耗,设计了一个效用函数,该效用函数的设计考虑了互信息:

通过使用适当设计的效用函数,每个智能体只使用本地信息和本地通信以分布式方式完成其任务。结果表明,利用这些效用函数定义的博弈是一个基于智能体状态的势博弈,这保证至少有一个纳什均衡。

先前大多数关于覆盖问题的研究都会定义概率函数来表示任务区域中事件的概率或发生频率,所有智能体都先验地知道该区域的传感值分布。本文研究的问题是未知环境下移动传感器的覆盖问题。为了克服在未知环境下缺乏区域价值先验知识的情况,本课题引入高斯混合模型(GMM):

其中每个智能体使用其之前的观测值来估计未知的模型参数。我们利用期望最大化算法(E-M算法)作为求解最大似然问题和计算未知 GMM 参数的工具。

为了使系统收敛到纳什均衡,一般采用强化学习进行迭代,在强化学习的早期文献中,预测的最佳反应动力学已经被使用,博弈参与者选择对其他玩家预测策略的最佳反 应。引入对数线性学习后,智能体可以选择非最优行动,但概率相对较低。这对智能体逃避次优行为起着重要作用,也增加了找到更好的纳什均衡的可能性。在本课题中,智能体在每次迭代中采用二元对数线性学习来更新其行为,推理证明是可以收敛到纳什均衡。

为了提高收敛到纳什平衡点的速度,本文将互信息应用于智能体的效用函数,通过选择更多的信息行为来改进估计方案。熵准则被用于选择信息观测, 智能体将考虑其观察到的区域和未观察到的区域之间的互信息,以确定更具信息性的观察结果。结果表明,在效用函数中加入与相互信息的改进型博弈仍然是一种基于状态的潜在博弈。在效用函数设计中,考虑到互信息,收敛速度将显著提高。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。