机械锚栓施工星际争霸II相助坚持基准***过S

发布日期:2022-08-22 10:16:25 浏览次数:

机械之心报道

编纂:杜伟、陈萍

这项使命又让咱们回到那个旧调重弹的成果:Transformer 真的是******的吗?

多智能体强化学习 (MARL) 是一个具备挑战性的成果,它不光需要识别每一个智能体的策略改善偏差,而且还需要将单个智能体的策略更新散漫起来,以普及部份功能。***近,这一成果患上到开始解决,有钻研职员引入了会集磨炼散漫推广 (CTDE) 的方式,使智能体在磨炼阶段可能拜候全局信息。可是,这些方式无奈涵盖多智能体交互的全副重大性。

事实上,其中一些方式还被证实是失败的。为了解决这个成果,有人提出多智能体劣势分解定理。在此根基上,HATRPO 以及 HAPPO 算法被推导进去。可是,这些方式也存在规模性,这些方式依然依附于精心妄想的***大化指标。

近些年来,序列模子(SM)在人造语言解决(NLP)畛域取患了素质性妨碍。如 GPT 系列、BERT 在宽泛的鄙俚使命上呈现卓越,而且在小样本泛化使命上取患了较强的功能。

因为序列模子与语言的序列特色人造适宜,因此可用于语言使命,可是序列方式不光限于 NLP 使命,而是一种宽泛适用的通用根基模子。比喻,在合计机视觉 (CV) 中,可能将图像分割成子图并将它们按次列部署,就彷佛它们是 NLP 使掷中的 token 同样 。近期比照驰名的模子 Flamingo、DALL-E 、 GATO 等都有序列方式的影子。

随着 Transformer 等网络架构的泛起,序列建模技术也引起了 RL 社区的极大关注,这增长了一系列基于 Transformer 架构的离线 RL 开辟。这些方式在解决一些***根基的 RL 磨炼成果方面呈现出了重大的后劲。

尽管这些方式取患了清晰的乐成,但不一种方式被妄想用来建模多智能体系统中***难题 (也是 MARL 特有的) 的方面——智能体之间的交互。事实上,假如重大地给予所有智能体一个 Transformer 策略,并对于其妨碍径自磨炼,这依然不能保障能普及 MARL 散漫功能。因此,尽管有少许细小的序列模子可用,但 MARL 并无真正运用序列模子功能劣势。

若何用序列模子解决 MARL 成果?来自上海交通大学、Digital Brain Lab、牛津大学等的钻研者提出一种新型多智能体 Transformer(MAT,Multi-Agent Transformer)架构,该架构可能实用地将相助 MARL 成果转化为序列模子成果,其使命是将智能体的审核序列映射到智能体的***优措施序列。

本文的指标是在 MARL 以及 SM 之间建树桥梁,以便为 MARL 监禁今世序列模子的建模能耐。MAT 的中间是编码器 - 解码器架构,它运用多智能体劣势分解定理,将散漫策略搜查成果转化为序列决定规画历程,这样多智能体成果就会呈现出线性光阴庞漂亮,***紧张的是,这样做可能保障 MAT 干燥功能降职。与 Decision Transformer 等先前技术需要预先收集的离线数据区别,MAT 以在线策略方式经由去自情景的在线试验以及过错妨碍磨炼。

  • 论文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 项目主页:https://sites.google.com/view/multi-agent-transformer

为了验证 MAT,钻研者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 以及 Google Research Football 基准上妨碍了宽泛的试验。服从表明,与 MAPPO 以及 HAPPO 等强基线比照,MAT 具备更好的功能以及数据功能。此外,该钻研还证明了无论智能体的数目若何变换,MAT 在没见过的使命上呈现较好,可是说是一个低劣的小样本学习者。

布景常识

在本节中,钻研者首先介绍了相助 MARL 成果公式以及多智能体劣势分解定理,这是本文的基石。而后,他们回顾了现有的与 MAT 相干的 MARL 方式,***后引出了 Transformer。

传统多智能体学习范式(左)以及多智能体序列决定规画范式(右)的比力。

成果公式

相助 MARL 成果个别由离散的全副可审核马尔可夫决定规画历程(Dec-POMDPs)

在了解特殊倒锥锚栓的过程我们知道,它是结合了普通化学锚栓和后扩底锚栓的优点而成的。一方面通过化学胶粘剂保证锚栓与混凝土体的连接强度,另一方面又通过倒锥体与混凝土机械锁键保证锚栓与混凝土体的连接强度,具备较好的抗震性能,还具有耐酸碱、耐低温、耐水渍、耐老化等特点。

来建模。

多智能体劣势分解定理

智能体经由 Q_π(o, a)以及 V_π(o)来评估行动以及审核的值,界说如下。

定理 1(多智能体劣势分解):令 i_1:n 为智能体的部署。如下公式始终建树,无需进一步假如。

紧张的是,定理 1 提供了一种用于教训若何抉择渐进式改善行动的直觉。

现有 MARL 方式

钻研者总结了当初两种 SOTA MARL 算法,它们都构建在近端策略优化(Proximal Policy Optimization, PPO)之上。PPO 是一种以简洁性以及功能晃动性驰名的 RL 方式。

多智能体近端策略优化(MAPPO)是******将 PPO 运用于 MARL 中的***间接方式。

异构智能体近端策略优化(HAPPO)是当初的 SOTA 算法之一,它可能短缺运用定理 (1) 以实现具备干燥降职保障的多智能体信赖域学习。

Transformer 模子

基于定理 (1) 中形貌的序列属性以及 HAPPO 眼前的道理,如今可能直不雅地思考用 Transformer 模子来实现多智能体信赖域学习。经由将一个智能体团队视作一个序列,Transformer 架构应承建模具备可变数目以及规范的智能体团队,同时可能防御 MAPPO/HAPPO 的弱点。

多智能体 Transformer

为了实现 MARL 的序列建圭表尺度式,钻研者提供的解决妄想是多智能体 Transformer(MAT)。运用 Transformer 架构的思路源于这样一个事实,即智能体审核序列 (o^i_1,...,o^i_n) 输入与措施序列(a^ i_1 , . . . , a^i_n)输入之间的映射是相似于机械翻译的序列建模使命。正如定理 (1) 所回避的,措施 a^i_m 依附于先前所有智能体的决定规画 a ^i_1:m−1。

因此,如下图(2)所示,MAT 中包罗了一个用于学习散漫审核呈现的编码器以及一个以自回归方式为每一个智能体输入措施的解码器。

编码器的参数用φ 呈现,它以恣意挨次获取审核序列(o^i_1 , . . . , o^i_n),并将它们传递经由多少个合计块。每一个块都由一个自留意力机制、一个多层感知机(MLP)以及残差衔接组成,以防御随深度削减泛起梯度消逝以及网络进化。

解码器的参数用θ呈现,它将嵌入的散漫措施 a^i_0:m−1 , m = {1, . . . n}(其中 a^i_0 是调唆解码开始的恣意符号)传递到解码块序列。至关紧张的是,每一个解码块都有一个掩码的自留意力机制。为了磨炼解码器,钻研者将如下裁剪 PPO 指标***小化。

MAT 中的具体数据流如下动图所示。

试验服从

为了评估 MAT 是否适宜预期,钻研者在星际争霸 II 多智能体挑战(SMAC)基准(MAPPO 在之上具备低劣功能)以及多智能体 MuJoCo 基准上(HAPPO 在之上具备 SOTA 功能)对于 MAT 妨碍了测试。

此外,钻研者还在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)以及 Google Research Football 基准上了对于 MAT 妨碍了扩充测试。前者提供了一系列具备挑战性的双手操作使命,后者提供了一系列足球游戏中的相助场景。

***后,因为 Transformer 模子个别在小样转使命上呈现出细小的泛化功能,因此钻研者置信 MAT 在未见过的 MARL 使命上也能具备相似细小的泛化能耐。因此,他们在 SMAC 以及多智能体 MuJoCo 使命上妄想了零样本以及小样本试验。

相助 MARL 基准上的功能

如下表 1 以及图 4 所示,对于 SMAC、多智能体 MuJoCo 以及 Bi-DexHands 基准来说,MAT 在简直所有使命上都清晰优于 MAPPO 以及 HAPPO,表明它在同谈判异构智能体使命上细小的构建能耐。此外,MAT 还患上到了优于 MAT-Dec 的功能,标明了 MAT 妄想中解码器架构的紧张性。

同样地,钻研者在 Google Research Football 基准上也患上到了相似的功勤勉效,如下图 5 所示。

MAT 用于小样本学习

表 2 以及表 3 中总结了每一种算法的零样本以及小样本服从,其中粗体数字呈现***佳功能。

钻研者还提供了数据相同状态下 MAT 的功能,其与比力组同样重新开始磨炼。如下表所示,MAT 取患了大少数***佳成果,这证明了 MAT 小样本学习的细小泛化功能。


联系我们
上海多固建筑科技有限公司
服务热线:
400-0188-830
联系人:
高经理
手机:
18000400666
销售电话:
0310-6170888
邮箱:
123882644@qq.com
地 址:上海市松江区 新浜镇中心路315号135弄
关注我们获取
锚固解决方案
网站导航: 化学锚栓 机械锚栓 倒锥锚栓 后扩底机械锚栓 sitemap sitemaps 北京SEO支持:中网四极 关键字:化学锚栓 机械锚栓 倒锥锚栓 后扩底机械锚栓
友情链接: 地铁螺栓 地脚螺栓 防火涂料 管片螺栓 eps线条设备 机械锚栓 管片螺栓 化学锚栓 地脚螺栓 vibration calibrator 文物修复 自行车阳光棚 堆取料机 边坡雷达 自平衡荷载箱 定制灭火产品 线切割机床 中走丝线切割 仿铜门 聚合氯化铝生产厂家 北京铁艺大门 5060阻燃剂 纳米疏水镀膜 全智能发酵罐