一、选题背景和意义:
在人类社会中,学习是智能行为的重要组成部分。 但是,每个个体不需要通过自己的发现从头开始学习所有内容。 相反,他们可以彼此交流信息和知识,并向同龄人或老师学习。 当任务太大而单个个体无法处理时,他们可能会合作完成任务。 在非人类社会中很常见的例子
也一样。例如,蚂蚁会就食物的位置进行交流并共同移动物体。
近年来,与人类“学习行为”相似的强化学习(RL)取得了重大进展,在解决机器学习中的各种决策问题方面获得了巨大的成功。RL的核心在于智能个体应如何在环境中采取行动以最大化累积奖励。强化学习、监督学习和无监督学习是三种基本的机器学习方法。
大多数成功的RL应用程序,例如围棋、扑克游戏、机器人技术和自动驾驶,都涉及多智能体的参与,这自然属于多智能体强化学习(MARL)领域。尽管MARL从经验上讲是成功的,但在文献中相对缺乏理论基础。多智能体问题根据其处理的任务类型分为完全合作,完全竞争以及混合合作/竞争。流行的多智能体强化学习结构包括一般的博弈学习方法、去中心化的MARL算法与网络智能体等等。
在多智能体系统中,传统的集中式强化学习方法的搜索成本通常随智能体的数量成指数增长.基于图像的状态表示方法没有花费如此高的指数成本,但是显示出有限的性能。我们希望提出一个框架,能将大规模问题分解为子问题并显示出令人满意的性能。
二、课题关键问题及难点:
具有混合协作竞争环境的大型多智能体系统长期以来一直是一个具有挑战性的问题,因为它具有高维状态和动作空间。 Dietterich等人以前曾针对单智能体强化学习问题,提出了一种MAXQ分解方法,以将目标马尔可夫决策过程(MDP)简化为较小的MDP。然而,将Q学习扩展到大规模多主体场景本身就是一项艰巨的任务。
此外,基于图像的状态表示方法的训练成本与主体数量无关,但是这些方法在混合合作竞争环境方面通常表现不佳。当前最先进的算法,例如具有集中参与者和评论者的Deep Deterministic Policy Gradient(DDPG)或具有集中评论者和分散参与者的Multi-Agent Deep Deterministic Policy Gradient(MADDPG),搜索成本通常随着多智能体数量指数增长。
三、文献综述(或调研报告):
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。