JZUS - Journal of Zhejiang University SCIENCE

Journal of Zhejiang University SCIENCE C

ISSN 1869-1951(Print), 1869-196x(Online), Monthly

2024 Vol.25 No.6 P.763-902

<<< CONTENTS >>>

Review Article

Review Article: Transformer in reinforcement learning for decision-making: a survey

Weilin YUAN, Jiaxing CHEN, Shaofei CHEN, Dawei FENG, Zhenzhen HU, Peng LI, Weiwei ZHAO

DOI: 10.1631/FITEE.2300548 Downloaded: 1950 Clicked: 2099 Cited: 0 Commented: 0(p.763-790) <Full Text><PPT> 397

Chinese summary <22>

袁唯淋¹，陈佳星²，陈少飞²，冯大为³，胡振震²，李鹏²，赵卫伟¹
¹国防科技大学信息通信学院，中国武汉市，430014
²国防科技大学智能科学学院，中国长沙市，410072
³国防科技大学并行与分布计算全国重点实验室，中国长沙市，410072
摘要：强化学习已成为一种主导的决策范式，在许多现实应用中取得令人瞩目的成果。在大规模决策场景中，深度神经网络成为释放强化学习巨大潜力的关键所在。受自然语言和视觉领域中先进Transformer方法的启发，Transformer和强化学习的结合，突破了智能决策领域许多瓶颈。本文从基础模型、先进算法、代表性示例、典型应用和挑战分析等层面，归纳总结了基于Transformer的强化学习方法（TransRL），旨在深入分析当前强化学习方法的痛点，讨论TransRL如何突破强化学习范式的局限。据我们所知，本文是第一篇系统性回顾基于Transformer的强化学习方法在智能决策领域应用进展的综述，期望提供一个全面的TransRL讨论基础，推动强化学习在此领域的应用。为便于跟进TransRL的前沿进展，我们整理了最新相关论文及其开源项目，详见https://github.com/williamyuanv0/Transformer-in-Reinforcement-Learning-for-Decision-Making-A-Survey。

关键词组：Transformer；强化学习；智能决策；深度神经网络；多智能体强化学习；元强化学习

Research Articles

Optimal replication strategy for mitigating burst traffic in information-centric satellite networks: a focus on remote sensing image transmission

Ziyang XING, Xiaoqiang DI, Hui QI, Jing CHEN, Jinhui CAO, Jinyao LIU, Xusheng LI, Zichu ZHANG, Yuchen ZHU, Lei CHEN, Kai HUANG, Xinghan HUO

DOI: 10.1631/FITEE.2400025 Downloaded: 1874 Clicked: 2059 Cited: 0 Commented: 0(p.791-808) <Full Text><PPT> 445

Chinese summary <20>

邢紫阳^1,2，底晓强^1,2,3，祁晖^1,2，陈静^1,2，曹金辉^1,2，刘晋尧^1,2，
李旭生^1,2，张子初^1,2，朱玉臣^1,2，陈雷^1,2，黄锴^1,2，霍星翰^1,2
¹吉林省网络与信息安全重点实验室，中国长春市，130022
²长春理工大学计算机科学技术学院，中国长春市，130022
³长春理工大学信息化中心，中国长春市，130022
摘要：信息中心卫星网络在遥感图像传输中发挥着重要作用，然而，突发业务的出现在满足日益增长的带宽需求方面带来重大挑战。传统内容传输网络（CDN）由于需要预先部署内容，不具备应对此类突发流量的能力。本文提出一种最优替代策略，用于缓解信息中心卫星网络中的突发流量，特别是针对遥感图像传输。当多个用户在短时间内订阅相同的遥感图像内容时，所提策略选择最优的替代交付卫星节点，有效减少网络传输数据，防止突发流量导致的吞吐量下降。将内容传输过程公式化为一个多目标优化问题，应用马尔可夫决策确定突发流量减少的最优值，并利用联邦强化学习求解。此外，基于布隆过滤器设计了图像划分和识别方法，快速检索编码后的遥感图像。通过软件模拟低轨道卫星星座，验证了所提策略的有效性，平均交付时延减少17%。本文为卫星网络内容高效传输，特别是遥感图像传输，提供宝贵见解，并提出一种有前景的途径缓解信息中心环境中的突发流量挑战。

关键词组：信息中心卫星网络；突发流量；内容传输；联邦强化学习；混合整数线性规划模型；布隆过滤器；动态网络

Enhancing action discrimination via category-specific frame clustering for weakly supervised temporal action localization

Huifen XIA, Yongzhao ZHAN, Honglin LIU, Xiaopeng REN

DOI: 10.1631/FITEE.2300024 Downloaded: 1188 Clicked: 1725 Cited: 0 Commented: 0(p.809-823) <Full Text><PPT> 384

Chinese summary <18>

夏惠芬^1,3，詹永照^1,2，刘洪麟¹，任晓鹏¹
¹江苏大学计算机科学与通信工程学院，中国镇江市，212013
²大数据泛在感知与智慧农业应用工程研究中心，中国镇江市，212013
³常州机电职业技术学院，中国常州市，213164
摘要：时序动作检测任务是指在未裁剪的视频中检测出动作的开始时间和结束时间，并对动作实例进行分类。随着视频中动作类别的增多，现有仅提供视频级别标签的弱监督时序动作检测方法已无法提供足够的监督。单帧标注方法引起了人们兴趣。但现有单帧标注方法仅从视频片段序列的角度对标注的单帧建模，而忽略了标注单帧的动作显著性，并且没有充分考虑它们在同一动作类别中的相关性。考虑到在同一动作类别中，带标注的单帧能表现出独特的外观特征和清晰的动作模式，本文提出一种新颖的通过类别特定帧聚类来增强动作显著性的弱监督时序动作检测方法。该方法采用K-均值聚类算法对同一动作类别的帧聚合，将其作为该动作类别的特征表示。通过计算每帧与各个动作类别之间的相似度，得到类激活分数。特定于类别的单帧表征建模可以为主线中的视频片段序列建模提供补充性的指导。因此，针对标注的帧和其对应的视频片段序列，提出凸组合融合机制，用于增强动作显著性的一致性特性，从而生成更加鲁棒的类激活序列，进行精确的动作分类和动作定位。由于动作显著性增强的补充指导，该方法优于现有的基于单帧标注的动作检测方法。在THUMOS14、GTEA和BEOID3个数据集上进行的实验表明，与最新的方法相比，所提方法具有更高的检测性能。

关键词组：弱监督；时序动作检测；单帧标注；类别特定；动作显著性

A multi-agent collaboration scheme for energy-efficient task scheduling in a 3D UAV-MEC space

Yang LI, Ziling WEI, Jinshu SU, Baokang ZHAO

DOI: 10.1631/FITEE.2300393 Downloaded: 1410 Clicked: 2563 Cited: 0 Commented: 0(p.824-838) <Full Text><PPT> 411

Chinese summary <18>

李阳¹，魏子令¹，苏金树^1,2，赵宝康¹
¹国防科技大学计算机学院，中国长沙市，410073
²军事科学院，中国北京市，100091
摘要：针对智能应用算力处理需求，多接入边缘计算（multi-access edge computing，MEC）在网络边缘为其提供计算服务。无人机（unmanned aerial vehicle，UAV）具有良好机动性，可在MEC中作为临时空中边缘节点为地面用户提供边缘服务。然而，MEC环境复杂且动态可变，如何为多台无人机制定合适的服务策略具有一定挑战。此外，现有很多UAV-MEC相关工作均假定无人机飞行高度固定，即飞行在二维平面内，忽略了飞行高度的重要性。在同信道干扰存在的前提下，本文通过优化能效实现任务完成量的最大化，多台无人机在三维空间中共同协作为地面用户提供任务计算服务。为实现能效优化目标，最大化任务完成量并最小化飞行能耗，须制定最优飞行策略、子信道选择策略以及任务调度策略。基于多智能体深度确定性策略梯度算法（multi-agent deep deterministic policy gradient，MADDPG），本文提出好奇心驱动和双网络结构的多智能体深度确定性策略梯度算法（curiosity-driven and twin-networks-structured MADDPG，CTMADDPG）解决上述优化问题，通过内部奖励促进智能体的状态探索，避免收敛于次优策略。同时，利用双批评家网络降低Q值高估概率，实现稳定更新。仿真结果表明CTMADDPG算法在最大化整个系统能效方面表现突出，优于其他基准测试算法。

关键词组：多接入边缘计算；多智能体强化学习；无人机；任务调度

PEGA: probabilistic environmental gradient-driven genetic algorithm considering epigenetic traits to balance global and local optimizations

Zhiyu DUAN, Shunkun YANG, Qi SHAO, Minghao YANG

DOI: 10.1631/FITEE.2300170 Downloaded: 1731 Clicked: 2700 Cited: 0 Commented: 0(p.839-855) <Full Text><PPT> 371

Chinese summary <18>

段峙宇，杨顺昆，邵麒，杨明浩
北京航空航天大学可靠性与系统工程学院，中国北京市，100191
摘要：表观遗传学的灵活性使进化机制更加精细和多样化。从表观遗传的角度来看，提升遗传算法的稳定性和准确性需要重点解决两个方面的问题：（1）恒定外部环境导致突变或交叉后表型变化的过度无序性；（2）表观遗传算子类型有限导致的过早收敛。为此本文提出一种考虑表观遗传特征的概率环境梯度驱动遗传算法（PEGA）。提出概率环境梯度下降策略（PEG），其基于多维异构指数环境向量在解空间中沿梯度方向生成更多后代，以提高局部收敛效率并获得稳定的局部搜索能力。为了在不同进化阶段平衡全局和局部搜索，设计了可变核小体重组算子（VNR）以动态调整参与突变和交叉的基因数量。在此基础上，引入3个表观遗传算子，通过丰富遗传多样性来减少过早收敛的可能。在CEC’17基准函数集上10维，30维，50维和100维的实验结果表明，PEGA的准确性和稳定性均优于10种先进的进化和群体智能算法。消融分析验证了PEG和VNR在96.55%的测试函数上的有效性，并可将准确性提高至多4个数量级。此外，PEGA在航天器轨迹优化问题上也表现出了最佳综合性能。

关键词组：进化算法；表观遗传学；表观遗传算法；概率环境向量；可变核小体重组

Separation identification of a neural fuzzy Wiener–Hammerstein system using hybrid signals

Feng LI, Hao YANG, Qingfeng CAO

DOI: 10.1631/FITEE.2300058 Downloaded: 1285 Clicked: 2292 Cited: 0 Commented: 0(p.856-868) <Full Text><PPT> 355

Chinese summary <18>

李峰¹，杨浩¹，曹晴峰²
¹江苏理工学院电气信息工程学院，中国常州市，213001
²扬州大学电气与能源动力工程学院，中国扬州市，225127
摘要：提出一种基于混合信号的神经模糊Wiener-Hammerstein（W-H）系统分离辨识策略。W-H系统由两个线性动态模块和一个非线性静态模块组成。静态非线性模块利用神经模糊网络（NFN）建模，两个线性动态模块分别利用自回归外生（ARX）模型和自回归（AR）模型建模。当系统输入为高斯信号时，利用相关分析技术解耦两个线性动态模块的辨识与非线性模块辨识。首先，基于高斯信号的输入和输出，利用相关分析技术辨识输入线性模块和输出线性模块，解决了W-H系统中间变量信息无法测量的问题。然后，采用零极点匹配方法分离两个线性模块的参数。此外，基于随机信号的输入和输出，利用递归最小二乘法识别非线性模块，避免输出噪声的影响。数值仿真和非线性过程仿真证明了所提辨识技术的可行性。仿真结果表明，所提策略可以获得比现有辨识算法更高的辨识精度。

关键词组：Wiener-Hammerstein系统；神经模糊网络；相关分析技术；混合信号；分离辨识

Multi-agent reinforcement learning behavioral control for nonlinear second-order systems

Zhenyi ZHANG, Jie HUANG, Congjie PAN

DOI: 10.1631/FITEE.2300394 Downloaded: 1247 Clicked: 1859 Cited: 0 Commented: 0(p.869-886) <Full Text><PPT> 389

Chinese summary <18>

张祯毅^1,2，黄捷^1,2，潘聪捷^1,2
¹福州大学电气工程与自动化学院，中国福州市，350108
²福州大学5G+工业互联网研究院，中国福州市，350108
摘要：强化学习行为控制局限于没有群体任务的单个智能体，因为其将行为优先级学习建模为马尔可夫决策过程。本文提出一种新颖的多智能体强化学习行为控制方法，该方法通过执行联合学习克服上述缺陷。具体而言，针对一组非线性二阶系统，设计一个多智能体强化学习任务监管器以在任务层分配行为优先级。通过将行为优先级切换建模为协作式马尔可夫博弈，多智能体强化学习任务监管器学习最优联合行为优先级，以减少对人类智能和高性能计算硬件的依赖。在控制层，设计了一组二阶强化学习控制器用以学习最优控制策略，实现位置和速度信号的同步跟踪。特别地，设计了一组自适应补偿器以保证输入饱和约束。数值仿真结果验证了所提出的多智能体强化学习行为控制对比有限时间、固有时间和强化学习行为控制具有更低的切换频率和控制代价。

关键词组：强化学习；行为控制；二阶系统；任务监管

Asymmetric time-varying integral barrier Lyapunov function based adaptive optimal control for nonlinear systems with dynamic state constraints

Yan WEI, Mingshuang HAO, Xinyi YU, Linlin OU

DOI: 10.1631/FITEE.2300675 Downloaded: 1150 Clicked: 2245 Cited: 0 Commented: 0(p.887-902) <Full Text><PPT> 476

Chinese summary <18>

魏岩，郝明爽，禹鑫燚，欧林林
浙江工业大学信息工程学院，中国杭州市，310023
摘要：本文研究具有动态状态约束的非线性系统自适应最优跟踪控制问题。首先提出一种基于非对称时变积分障碍李雅普诺夫函数（ATIBLF）的积分强化学习（IRL）控制算法。在最优反步控制设计的每一步中都引入ATIBLF，以确保系统始终满足动态变化的全状态约束。每个子系统中的最优虚拟/实际控制器均用ATIBLF和自适应最优项进行分解，同时利用神经网络来近似最优代价函数梯度。根据李雅普诺夫稳定性定理，证明了闭环系统所有信号的有界性。所提出的控制方案保证了系统状态在预定义的紧集内。最后，通过仿真实验验证了本文所提方法的有效性。

关键词组：状态约束；非对称时变积分障碍李雅普诺夫函数（ATIBLF）；自适应最优控制；非线性系统

Journal of Zhejiang University-SCIENCE, 38 Zheda Road, Hangzhou 310027, China
Tel: +86-571-87952276; Fax: +86-571-87952331; E-mail: jzus@zju.edu.cn
Copyright © 2000~ Journal of Zhejiang University-SCIENCE

CONTENTS

INSTR. FOR AUTHOR

FOR REVIEWER

ABOUT JZUS

Publishing Service

Advertisements

CONTENTS

INSTR. FOR AUTHOR

FOR REVIEWER

ABOUT JZUS

Publishing Service

Advertisements

Chinese summary <22>

Chinese summary <20>

Chinese summary <18>

Chinese summary <18>

Chinese summary <18>

Chinese summary <18>

Chinese summary <18>

Chinese summary <18>