|
Journal of Zhejiang University SCIENCE C
ISSN 1869-1951(Print), 1869-196x(Online), Monthly
2022 Vol.23 No.7 P.991-1138
Special Feature on Institutionalized and Systematized Gaming (InSys Gaming) for Multi-agent Systems
(Guest Editor-in-Chief: Jun LU; Guest Executive Lead Editor: Fei-Yue WANG; Guest Editors: Qi DONG, Qibin SUN, Qinglai WEI, Xin YAO)
Editorial: Institutionalized and systematized gaming for multi-agent systems
Jun LU, Fei-Yue WANG, Qi DONG, Qinglai WEI
DOI: 10.1631/FITEE.2240000 Downloaded: 2795 Clicked: 2710 Cited: 0 Commented: 0(p.991-994) <Full Text>
Perspective: Existence and practice of gaming: thoughts on the development of multi-agent system gaming
Qi DONG, Zhenyu WU, Jun LU, Fengsong SUN, Jinyu WANG, Yanyu YANG, Xiaozhou SHANG
DOI: 10.1631/FITEE.2100593 Downloaded: 4229 Clicked: 2878 Cited: 0 Commented: 0(p.995-1001) <Full Text>
1中国电子科学研究院,中国北京市,100049
2北京理工大学信息与电子学院,中国北京市,100081
3北京邮电大学信息与通信工程学院 ,中国北京市,100876
摘要:博弈是宇宙中的一种普遍存在。本文从人类对博弈的认识过程出发,探讨了博弈的存在与实践,阐述了多智能体博弈研究难点,并基于演化思想,从系统论的角度出发,提出多智能体演化博弈理论框架。以下一代预警探测系统为例,介绍了多智能体演化博弈的应用实践。构建了多智能体自组织博弈决策模型和多智能体强化学习方法,对研究高维复杂环境下的组织化、体系化博弈行为具有重要意义。
关键词组:博弈;多智能体系统;多智能体演化博弈;预警探测
Perspective: Prospects for multi-agent collaboration and gaming: challenge, technology, and application
Yu LIU, Zhi LI, Zhizhuo JIANG, You HE
DOI: 10.1631/FITEE.2200055 Downloaded: 5903 Clicked: 2963 Cited: 0 Commented: 0(p.1002-1009) <Full Text><PPT> 516
1清华大学电子工程系,中国北京市,100084
2清华大学深圳国际研究生院,中国深圳市,518055
摘要:近年来,多智能体系统在解决复杂环境中各种决策问题方面取得显著进步,并已实现与人类相似甚至更好的决策性能。本文从任务挑战、技术方向和应用领域3个角度简要回顾多智能体协作和博弈相关技术。首先回顾近期多智能体系统工作中的典型研究问题和挑战,然后进一步讨论关于多智能体协作和游戏任务的前沿研究方向,最后对多智能体协作与博弈的应用领域进行重点展望。
关键词组:多智能体;博弈论;集体智能;强化学习;智能控制
Optimal synchronization control for multi-agent systems with input saturation: a nonzero-sum game
Hongyang LI, Qinglai WEI
DOI: 10.1631/FITEE.2200010 Downloaded: 10671 Clicked: 3076 Cited: 0 Commented: 0(p.1010-1019) <Full Text><PPT> 484
1中国科学院大学人工智能学院,中国北京市,100049
2中国科学院自动化研究所复杂系统管理与控制国家重点实验室,中国北京市,100190
3澳门科技大学系统工程研究所,中国澳门特别行政区,999078
摘要:本文针对输入饱和下的多智能体系统,提出一种最优一致性控制方法。引入多智能体博弈理论,将最优一致性控制问题转化为多智能体非零和博弈。之后,通过求解具有非二次输入能量项的耦合Hamilton–Jacobi–Bellman(HJB)方程,实现Nash平衡。提出脱策强化学习方法,在系统模型未知情况下获得Nash平衡解;引入评判神经网络和执行神经网络实现所提方法。理论分析显示迭代控制律收敛到Nash平衡。仿真实验验证了所提方法的有效性。
关键词组:最优一致性控制;多智能体系统;非零和博弈;自适应动态规划;输入饱和;脱策强化学习;策略迭代
Yang YUAN, Yimin DENG, Sida LUO, Haibin DUAN
DOI: 10.1631/FITEE.2100559 Downloaded: 19035 Clicked: 3104 Cited: 0 Commented: 0(p.1020-1031) <Full Text><PPT> 491
1北京航空航天大学自动化科学与电气工程学院虚拟现实技术与系统国家重点实验室,中国北京市,100083
2北京航空航天大学机械工程及自动化学院,中国北京市,100191
3鹏城实验室,中国深圳市,518000
摘要:本文研究了具有外部干扰和障碍物的无人机编队分布式博弈策略,该策略基于分布式模型预测控制(MPC)框架和基于Levy飞行的鸽群优化算法(LFPIO)。首先,提出一种非奇异快速终端滑模观测器(NFTSMO)估计无人机受扰动的影响,并利用Lyapunov函数证明该观测器在固定时间内收敛。其次,设计一种基于拓扑重构的避障策略,使无人机能够以较小能量消耗安全通过障碍物。然后,建立一个分布式MPC框架,该框架中每架无人机仅与邻居交换消息,通过设计分布式MPC代价函数,将无人机编队问题转化为博弈问题,并利用基于Levy飞行的鸽群优化算法求解纳什均衡。最后,利用数值仿真对比实验验证所提策略的有效性。
关键词组:分布式博弈策略;无人机;分布式模型预测控制;基于Levy飞行的鸽群优化算法;非奇异快速终端滑模观测器;避障策略
Coach-assisted multi-agent reinforcement learning framework for unexpected crashed agents
Jian ZHAO, Youpeng ZHAO, Weixun WANG, Mingyu YANG, Xunhan HU, Wengang ZHOU, Jianye HAO, Houqiang LI
DOI: 10.1631/FITEE.2100594 Downloaded: 9132 Clicked: 2853 Cited: 0 Commented: 0(p.1032-1042) <Full Text><PPT> 525
1中国科学技术大学信息科学技术学院,中国合肥市,230026
2天津大学智能与计算学部,中国天津市,300072
摘要:多智能体强化学习在实际场景中很难应用,一部分原因在于模拟环境和现实环境之间存在差距。造成这种差距的一个原因是,模拟系统总是假设智能体可以一直正常工作,而实际上,由于不可避免的硬件或软件故障,一个或多个智能体可能会在合作过程中意外“崩溃”。这样的崩溃会破坏智能体之间的合作,导致系统性能下降。本文中,我们给出了意外崩溃情况下合作多智能体强化学习系统的正式定义。为增强系统应对崩溃时的鲁棒性,提出教练辅助多智能体强化学习框架,其在训练过程中引入一个虚拟教练智能体,以调整系统的崩溃概率。为教练智能体设计了3种教练策略和重采样策略。据我们所知,这是研究多智能体系统中意外崩溃情况的首项工作。在网格环境和星际争霸微管理任务上的大量实验表明,相比固定崩溃概率和课程学习的教练策略,自适应策略更加有效。消融实验进一步展现了重采样策略的有效性。
关键词组:多智能体系统;强化学习;意外崩溃智能体
Multi-agent differential game based cooperative synchronization control using a data-driven method
Yu SHI, Yongzhao HUA, Jianglong YU, Xiwang DONG, Zhang REN
DOI: 10.1631/FITEE.2200001 Downloaded: 6836 Clicked: 3099 Cited: 0 Commented: 0(p.1043-1056) <Full Text><PPT> 550
1北京航空航天大学自动化科学与电气工程学院,中国北京市,100191
2北京航空航天大学人工智能研究院,中国北京市,100191
摘要:本文研究了多智能体微分博弈问题及其在协同一致控制中的应用。提出系统化的多智能体微分博弈构建和分析方法,同时给出一种基于强化学习技术的数据驱动方法。首先论证了由于网络交互的耦合特性,典型的分布式控制器无法充分保证微分博弈的全局纳什均衡。其次通过定义最优对策的概念,将问题分解为局部微分博弈问题,并给出局部纳什均衡解。构造了一种无需系统模型信息的离轨策略强化学习算法,利用在线邻居交互数据对控制器进行优化更新,并证明控制器的稳定性和鲁棒性。进一步提出一种基于改进耦合指标函数的微分博弈模型及其等效的强化学习求解方法。与现有研究相比,该模型解决了多智能体所需信息的耦合问题,并实现分布式框架下全局纳什均衡和稳定控制。构造了与此纳什解对应的等价并行强化学习方法。最后,仿真结果验证了学习过程的有效性和一致控制的稳定性。
关键词组:多智能体系统;微分博弈;一致控制;数据驱动;强化学习
Finite-time leader-follower consensus of a discrete-time system via sliding mode control
Ruizhuo SONG, Shi XING, Zhen XU
DOI: 10.1631/FITEE.2100565 Downloaded: 6502 Clicked: 3181 Cited: 0 Commented: 0(p.1057-1068) <Full Text><PPT> 545
1北京科技大学自动化学院,中国北京市,100083
2北京市工业波谱成像工程技术研究中心,中国北京市,100083
3北京科技大学土木与资源工程学院,城镇化与城市安全研究院,中国北京市,100083
摘要:研究了离散时间二阶多智能体系统在外部干扰约束下的有限时间领导-跟随一致性问题。首先利用自适应滑模控制理论,设计了一种新的有限时间一致性方案。自适应控制律是在传统滑模趋近律基础上改进设计的,其优点是减少抖振并保持对干扰的不变性。此外,通过给出一个离散李雅普诺夫函数,证明了离散时间二阶多智能体系统的有限时间稳定性。最后,数值模拟结果验证了理论分析的有效性。
关键词组:有限时间;领导-跟随一致性;自适应滑模控制;多智能体系统
Hanqi DAI, Weining LU, Xianglong LI, Jun YANG, Deshan MENG, Yanze LIU, Bin LIANG
DOI: 10.1631/FITEE.2100597 Downloaded: 4967 Clicked: 3033 Cited: 0 Commented: 0(p.1069-1076) <Full Text>
1清华大学自动化系,中国北京市,100084
2清华大学北京信息科学与技术国家研究中心,中国北京市,100084
3天津大学科学技术发展研究院,中国天津市,300350
4中山大学航空航天学院,中国深圳市,518107
5诺丁汉大学电气与电子工程系,中国宁波市,315154
摘要:协同规划是多智能体系统博弈领域的关键问题之一。本文聚焦每个智能体只有一个局部观测范围和局部通信情况下的协作规划。提出一种新型协同规划框架,该框架将图神经网络与融合任务信息采样方法相结合。本文的两个主要贡献是基于与前期工作的比较:(1)使用图采样与聚合方法(GraphSAGE)实现动态近邻智能体信息融合,这是该方法首次用于处理协同规划问题;(2)提出一种面向任务的采样方法,从特定方向聚合知识,使所提模型获得高效、稳定的训练过程。实验结果证明了所提方法的有效性。
关键词组:多智能体系统;协同规划;图采样与聚合(GraphSAGE);融合任务信息
Regular Papers
Review Article: Light field imaging for computer vision: a survey
Chen JIA, Fan SHI, Meng ZHAO, Shengyong CHEN
DOI: 10.1631/FITEE.2100180 Downloaded: 10682 Clicked: 3918 Cited: 0 Commented: 0(p.1077-1097) <Full Text><PPT> 539
1天津理工大学学习型智能系统教育部工程研究中心,中国天津市,300384
2天津理工大学计算机视觉与系统教育部重点实验室,中国天津市,300384
摘要:光场成像因其解决计算机视觉问题的能力而备受关注。本文首先简要回顾了近年来计算机视觉的研究进展。对于影响计算机视觉发展的大多数因素来说,视觉信息获取的丰富性和准确性起着决定性作用。光场成像技术利用照相机或微透镜阵列记录光线位置和方向信息,获取完整三维场景信息,为计算机视觉研究做出巨大贡献。光场成像提高了深度估计以及图像分割、融合和三维重建的精度。光场成像还被创新地应用于虹膜和人脸识别、材料和虚假行人识别、极平面图像采集和形状恢复以及光场显微镜。我们进一步总结了光场成像技术在计算机视觉研究中存在的问题和发展趋势,如光场数据集的建立和评估、在高动态范围条件下的应用、光场增强和虚拟现实。光场成像在各种研究中取得巨大成功。在过去25年,超过180篇文献报道了光场成像在解决计算机视觉问题上的能力。我们梳理了这些文献,使研究人员更容易搜索有关解决方案的详细方法。
关键词组:光场成像;相机阵列;微透镜阵列;极平面图像;计算机视觉
Han WANG, Mingjie PANG, Hai LIN
DOI: 10.1631/FITEE.2100387 Downloaded: 10722 Clicked: 3636 Cited: 0 Commented: 0(p.1098-1109) <Full Text><PPT> 504
浙江大学计算机辅助设计与图形学国家重点实验室,中国杭州市,310027
摘要:利用矩量法求解面体面电场积分方程(SVS-EFIE),公式复杂,实现困难,算法复杂度高。本文提出求解任意金属–介电混合体电磁散射问题的通用矩阵方程(GME),并给出该方程的增强解。矩量法只考虑包含3个区域的金属–介电混合体,且SVS-EFIE的两步过程导致两个积分符号,难以实现且算法复杂度高。为解决该问题,本文首次提出能够用于分析均匀介质体和超过3个区域金属–介电混合体的GME方法。提出基于耦合度和子区域间距相关的GME加速求解策略,并自适应设置耦合度标准以平衡精度和效率。将变形后的加法定理用于强耦合情况,将迭代法用于弱耦合情况。并行性可以方便地应用于该增强解。数值结果表明,与直接解相比,该方法平均只需11.6%的内存和11.8%的中央处理器时间。
关键词组:混合体;积分方程;矩量法;加法定理;迭代
Cellular automata based multi-bit stuck-at fault diagnosis for resistive memory
Sutapa SARKAR, Biplab Kumar SIKDAR, Mousumi SAHA
DOI: 10.1631/FITEE.2100255 Downloaded: 6306 Clicked: 4756 Cited: 0 Commented: 0(p.1110-1126) <Full Text><PPT> 476
1Seacom工程学院电子与通信工程系,印度西孟加拉邦豪拉市,711302
2印度工程科学与技术学院计算机科学与技术系,印度西孟加拉邦豪拉市,711303
3国立技术学院计算机科学与工程系,印度西孟加拉邦杜尔加普尔,713209
摘要:本文提出一种用于可变电阻式存储器(ReRAM)、基于组的动态固定型故障诊断方案。传统的静态随机存取存储器、动态随机存取存储器、NAND和NOR闪存受可扩展性、功率、封装密度等限制。可变电阻式存储器这类下一代存储器被认为具有多种优势,如高封装密度、非易失性、可扩展性和低功耗,但单元可靠性一直是个问题。不可靠的内存操作是由于大量使用写入或内存密集型工作负载而导致的永久性固定型故障。越来越多的固定型故障也限制了芯片寿命。因此,本文提出一种基于元胞自动机(CA)的动态消除固定型故障设计,以解决不可靠的电池功能和不稳定的电池寿命问题。引入可扩展的块级故障诊断和恢复方案,以确保在出现多比特固定型故障情形下仍可读取数据。该方案是一种新颖方法,因其目标是消除一般故障条件下对固定型故障的数量和性质的限制。所提方案基于Wolfram零边界和周期性边界CA理论。引入多种特殊类别CA--单长循环单吸引子元胞自动机(SACA)、单长循环双吸引子元胞自动机(TACA)和单长循环多吸引子元胞自动机(MACA)--以实现完全容错。目标微架构单元设计具有最佳空间开销。
关键词组:电阻存储器;电池可靠性;块级故障诊断;单长循环单吸引子元胞自动机;单长循环双吸引子元胞自动机;单长循环多吸引子元胞自动机
Efficient decoding self-attention for end-to-end speech synthesis
Wei ZHAO, Li XU
DOI: 10.1631/FITEE.2100501 Downloaded: 7009 Clicked: 3112 Cited: 0 Commented: 2(p.1127-1138) <Full Text><PPT> 463
1浙江大学电气工程学院,中国杭州市,310027
2浙江大学机器人研究院,中国余姚市,315400
摘要:自注意力网络由于其并行结构和强大的序列建模能力,被广泛应用于语音合成(TTS)领域。然而,当使用自回归解码方法进行端到端语音合成时,由于序列长度的二次复杂性,其推理速度相对较慢。当部署设备未配备图形处理器(GPU)时,该效率问题更加严重。为解决该问题,提出一种高效解码自注意力网络(EDSA)作为替代。通过一个动态规划解码过程,有效加速TTS模型推理,使其具有线性计算复杂度。基于普通话和英文数据集的实验结果表明,所提EDSA模型在中央处理器(CPU)和GPU上的推理速度分别提高720%和50%,而性能几乎相同。因此,在GPU资源有限的情况下,该方法可使此类模型的部署更加容易。此外,所提模型在域外语言处理上可能比基线Transformer TTS性能更好。
关键词组:高效解码;端到端;自注意力网络;语音合成