⼈⼯智能⽆线通信应⽤的⼀些论⽂
⽬录
课上讲的
⽤于⽆线⽹络中动态功率分配的多智能体深度强化学习
这项⼯作展⽰了深度强化学习技术在⽆线⽹络中进⾏发射功率控制的潜⼒。现有技术通常通过解决具有挑战性的优化问题来到接近最佳的功率分配。这些算法中的⼤多数由于其计算复杂性和瞬时跨⼩区信道状态信息(CSI)要求,因此在实际情况下⽆法扩展到⼤型⽹络。
本⽂基于⽆模型深度强化学习,开发了⼀种分布式执⾏的动态功率分配⽅案。
每个发送器从⼏个邻居收集CSI和服务质量(QoS)信息,并相应地调整其⾃⾝的发送功率。
⽬的是使加权求和率效⽤函数最⼤化,该函数可以具体化以实现最⼤求和率或成⽐例的公平调度。
使⽤深度Q学习固有地解决了CSI中的随机变化和延迟。
对于典型的⽹络体系结构,基于代理可⽤的延迟CSI测量,所⽰算法可实时实现近乎最佳的功率分配。
所提出的⽅案特别适⽤于系统模型不精确且CSI延迟不可忽略的实际情况。
基于深度强化学习的V2V通信资源分配
在本⽂中,我们基于深度强化学习开发了⼀种⽤于车对车(V2V)通信的分散式资源分配机制,该机制可应⽤于单播和⼴播场景。
根据分散的资源分配机制,⾃治代理,V2V链路或车辆做出决定,以到最佳的⼦带和功率电平进⾏传输,⽽⽆需或不必等待全局信息。由于所提出的⽅法是分散的,因此仅产⽣有限的传输开销。
从模拟结果来看,每个代理都可以有效地学习满⾜V2V链路上严格的等待时间约束,同时最⼤程度地减少对车辆到基础设施(V2I)通信的⼲扰。
⽆线调度的空间深度学习
具有全频率复⽤的密集⽆线⽹络中⼲扰链路的最佳调度是⼀项艰巨的任务。
传统⽅法包括⾸先估算所有⼲扰信道强度,然后根据模型优化调度。
然⽽,由于信道估计在密集⽹络中是昂贵的,因此这种基于模型的⽅法是资源密集的并且计算困难。此外,即使到结果优化问题的局部最优解也可能在计算上很复杂。
本⽂表明,通过使⽤深度学习⽅法,有可能仅基于发射机和接收机的地理位置来绕过信道估计,并可以有效地调度链路,⽽这些信道在很⼤程度上是距离相关的路径损耗的函数。这是通过在随机部署的⽹络上进⾏⽆监督训练,以及使⽤新颖的神经⽹络体系结构来实现的,该体系结构将受⼲扰或受⼲扰的相邻节点的地理空间卷积作为多个反馈阶段的输⼊,以学习最佳解决⽅案。
最终的神经⽹络为总速率最⼤化提供了近乎最佳的性能,并且能够推⼴到更⼤的部署区域以及不同链路密度的部署。
此外,为了提供公平性,本⽂提出了⼀种新颖的调度⽅法,该⽅法利⽤对链路的明智选择的⼦集的求和速率最优调度算法,以最⼤化⽹络上的⽐例公平性⽬标。
所提出的⽅法显⽰出极具竞争⼒和通⽤性的⽹络效⽤最⼤化结果。
使⽤深度强化学习在分布式MIMO Wi-Fi⽹络中优化吞吐量性能
本⽂探讨了利⽤深度强化学习(DRL)中的概念在实现分布式多⽤户MIMO(D-MIMO)的Wi-Fi⽹络中实现动态资源管理的可⾏性。
D-MIMO是⼀种技术,通过该技术,⼀组⽆线接⼊点将同步并分组在⼀起,以同时为多个⽤户共同提供服务。
本⽂解决了与D-MIMO Wi-Fi⽹络有关的两个动态资源管理问题:
(i)D-MIMO组的信道分配
(ii)确定如何将接⼊点聚类以形成D-MIMO组,以实现最⼤化⽤户吞吐量性能。
这些问题被称为NP-Hard,⽂献中仅存在启发式解决⽅案。
我们构建了⼀个DRL框架,学习代理通过该框架与D-MIMO Wi-Fi⽹络进⾏交互,了解⽹络环境,并成功地融合了解决上述问题的策略。无线网络受限制或无连接
通过基于D-MIMO Wi-Fi⽹络的⼤量模拟和在线培训,本⽂证明了DRL与启发式解决⽅案相⽐在⽤户吞吐量性能⽅⾯提⾼20%的功效,特别是在⽹络条件动态的情况下。
这项⼯作还展⽰了DRL在同时满⾜多个⽹络⽬标⽅⾯的有效性,例如,最⼤程度地提⾼了⽤户吞吐量以及其中的吞吐量公平性。
物理层通信的模型驱动深度学习
智能通信逐渐被认为是未来⽆线通信的主流⽅向。深度学习(DL)作为机器学习的主要分⽀,已应⽤于物理层通信中,并且近年来表现出令⼈印象深刻的性能提升。
但是,与DL有关的⼤多数现有⼯作都集中在数据驱动的⽅法上,该⽅法将通信系统视为⿊匣⼦,并通过使⽤⼤量数据对其进⾏训练。训练⽹络需要⾜够的计算资源和⼤量时间,⽽这在通信设备中很少见到。
相反,模型驱动的DL⽅法将通信领域的知识与DL相结合,以减少对计算资源和培训时间的需求。
本⽂回顾了模型驱动的DL⽅法在物理层通信中的最新应⽤进展,包括传输⽅案,接收器设计和信道信息恢复。
提出全⾯调查后,还将突出强调⼀些尚待研究的问题。
⼤规模MIMO CSI反馈的深度学习
在频分双⼯模式下,应通过反馈链路将下⾏链路信道状态信息(CSI)发送到,以便可以显⽰⼤量多输⼊多输出的潜在增益。 但是,这种传输受到过多反馈开销的阻碍。
在这篇论⽂中,我们将使⽤深度学习技术来开发CsiNet,这是⼀种新颖的CSI感知和恢复{机制},它可以从训练样本中学习有效地使⽤通道结构。 CsiNet学习了从CSI到近似最佳数量的表⽰形式(或代码字)的转换以及从代码字到CSI的逆转换。
我们进⾏的实验表明,与现有的基于压缩感知(CS)的⽅法相⽐,CsiNet可以以显着提⾼的重建质量恢复CSI。 即使在基于CS的⽅法⽆法使⽤的过低压缩区域,CsiNet仍可以保持有效的波束成形增益。
基于深度学习的⼤规模机器类型通信的快速多⽤户检测
具有零星传输的⼩数据包和低数据速率的⼤规模机器类型通信(MTC)需要在PHY和MAC层上进⾏新设计且传输开销较⼩。基于压缩感知的多⽤户检测(CS-MUD)旨在通过利⽤稀疏性(即MTC中零星传输的性质)通过具有低开销的随机访问来检测活动⽤户。然⽽,常规的稀疏重构算法的⾼计算复杂性阻⽌了在实际通信系统中CS-MUD的实现。
为了克服这个缺点,在本⽂中,我们提出了⼀种在⼤型MTC系统中基于快速深度学习的CS-MUD⽅法。
特别地,提出了⼀种新颖的块限制性激活⾮线性单元,以捕获宽带⽆线通信系统(或多天线系统)中的块稀疏结构。
仿真结果表明,该⽅法优于现有的CS-MUD算法,可将计算时间减少⼗倍。
使⽤深度强化学习的异构⽆线⽹络的载波侦听多路访问
本⽂研究了⼀类新型的载波侦听多路访问(CSMA)协议,该协议采⽤深度强化学习(DRL)技术进⾏异构⽆线⽹络连接,称为载波侦听深度强化学习多路访问(CS-DLMA)。
现有的CSMA协议,例如WiFi的媒体访问控制(MAC),是为所有节点均采⽤相同协议的同类⽹络环境⽽设计的。在存在节点采⽤其他MAC协议的异构环境中,这样的协议遭受严重的性能下降。
本⽂表明,DRL技术可⽤于为异构⽹络设计有效的MAC协议。特别地,在节点采⽤不同MAC协议(例如,CS-DLMA,TDMA和ALOHA)的异构环境中,CS-DLMA节点可以学习最⼤化所有节点的总吞吐量。
此外,与WiFi的CSMA相⽐,CS-DLMA与其他MAC协议共存时,可以实现更⾼的总吞吐量和单个吞吐量。
最后但并⾮最不重要的⼀点是,CS-DLMA的显着特征是它不需要知道共存MAC的操作机制。它也不需要知道使⽤这些其他MAC的节点数。
⾯向论⽂⾥⾯的
谭俊杰, 梁应敞. ⾯向智能通信的深度强化学习⽅法[J]. 电⼦科技⼤学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-
0548.2020040
频谱资源管理
免许可频段中LTE和WiFi系统的智能共享:深度强化学习⽅法
[18] TAN J, ZHANG L, LIANG Y, et al. Intelligent sharing for LTE and WiFi Systems in Unlicensed Bands: A Deep Reinforcement Learning Approach[J]. IEEE Transactions on Communications, DOI: 10.1109/TCOMM.2020.2971212.
在免许可频段上运⾏LTE⽹络以及传统WiFi系统被认为是⽀持爆炸性增长的移动流量的有前途的技术。在常规的LTE / WiFi频谱共享⽅案中,LTE系统需要知道WiFi流量需求以优化系统参数以保护WiFi系统,为此,这两个系统需要通过信令交换彼此协作。但是,很难在两个独⽴的系统之间建⽴专⽤信道来交换信令。
因此,在本⽂中,我们提出了⼀种智能占空⽐媒体访问控制协议,以实现LTE和WiFi系统之间有效⽽公平的频谱共享,⽽⽆需进⾏信号交换。
具体来说,我们⾸先设计⼀个占空⽐频谱共享框架,该框架允许LTE系统通过使⽤时间共享与WiFi系统共享频谱。
之后,我们开发了基于深度强化学习(DRL)的算法,通过分析WiFi通道活动(例如WiFi通道的闲置/业务)来学习WiFi流量需求,LTE系统可以通过监视WiFi通道来观察该活动。
基于学习到的知识,LTE系统可以⾃适应地优化LTE传输时间,以最⼤化其⾃⾝的吞吐量,同时为WiFi系统提供⾜够的保护。
仿真结果表明,在LTE吞吐量和WiFi保护⽅⾯,所提出的智能⽅案的性能可以与精灵辅助的穷举搜索算法相媲美,后者需要通过⼤量的信令交换来全⾯了解WiFi流量需求,并且具有很⾼的实⽤性。计算复杂度。
⽤于分布式动态频谱访问的深度多⽤户强化学习
[22] NAPARSTEK O, COHEN K. Deep multi-user reinforcement learning for distributed dynamic spectrum access[J]. IEEE Transactions on Wireless Communications, 2018, 18(1): 310-323.
我们考虑了在多通道⽆线⽹络中最⼤化⽹络实⽤性的动态频谱访问问题。
共享带宽被分成K个正交信道。在每个时隙的开始,每个⽤户选择⼀个信道并以⼀定的传输概率发送⼀个分组。在每个时隙之后,已经发送了分组的每个⽤户接收指⽰其分组是否被成功递送的本地观察(即,ACK信号)。
⽬的是⼀种⽤于访问频谱的多⽤户策略,该策略以分布式⽅式最⼤化某个⽹络实⽤程序,⽽⽆需⽤户之间的在线协调或消息交换。
由于较⼤的状态空间和状态的部分可观察性,因此获得频谱访问问题的最佳解决⽅案通常在计算上昂贵。
为了解决这个问题,我们开发了⼀种基于深度多⽤户强化学习的新型分布式动态频谱访问算法。
具体⽽⾔,在每个时隙,每个⽤户都基于经过训练的深度Q⽹络将其当前状态映射到频谱访问操作,该⽹络⽤于最⼤化⽬标功能。
开发了系统动⼒学的博弈论分析,以建⽴算法实现的设计原理。
实验结果证明了该算法的强⼤性能。
使⽤频谱瀑布的抗⼲扰通信:⼀种深度强化学习⽅法
[23] LIU X, XU Y, JIA L, et al. Anti-jamming communications using spectrum waterfall: A deep reinforcement learning approach[J]. IEEE Communications Letters, 2018, 22(5): 998-1001. doi: 10.1109/LCOMM.2018.2815018
这封信通过在线学习调查了动态和未知环境中的抗⼲扰通信问题。
与现有研究需要了解(估计)⼲扰模式和参数不同,我们直接使⽤频谱瀑布,即原始频谱环境。
⾸先,为应对原始频谱信息⽆限状态的挑战,构建了⼀个深层的抗⼲扰Q⽹络。
然后,提出了⼀种深层的抗⼲扰强化学习算法,以获得最优的抗⼲扰策略。
最后,仿真结果验证了该⽅法的有效性。
所提出的⽅法仅依赖于本地观察到的信息,⽽⽆需估计⼲扰模式和参数,这意味着它可以⼴泛⽤于各种抗⼲扰⽅案。
功率资源管理
认知⽆线电中频谱共享的智能功率控制:⼀种深度强化学习⽅法
[24] LI X, FANG J, CHENG W, et al. Intelligent power control for spectrum sharing in cognitive radios: A deep reinforcement learning approach[J]. IEEE Access, 2018, 6: 25463-25473. doi: 10.1109/ACCESS.2018.2831240
我们考虑由主要⽤户和次要⽤户组成的认知⽆线电系统中的频谱共享问题。
主要⽤户和次要⽤户以⾮合作⽅式⼯作。具体⽽⾔,假定主要⽤户基于预定义的功率控制策略来更新其发射功率。次要⽤户不了解主要⽤户的发射功率或其功率控制策略。
本⽂的⽬的是为次级⽤户开发⼀种基于学习的功率控制⽅法,以便与初级⽤户共享公共频谱。
为了辅助次要⽤户,在空间上部署了⼀组传感器节点,以在⽆线环境中的不同位置收集接收到的信号强度信息。
我们开发了⼀种基于深度强化学习的⽅法,次级⽤户可以使⽤该⽅法智能地调整其传输功率,以便在与初级⽤户进⾏⼏轮交互之后,两个⽤户都可以成功传输⾃⼰所需的数据并达到所需的服务质量。
我们的实验结果表明,次要⽤户可以在⼏个步骤内从任何初始状态有效地与主要⽤户互动,以达到⽬标状态(定义为两个⽤户都可以成功传输其数据的状态)。
⽤于⽆线⽹络中动态功率分配的多智能体深度强化学习↑
[25] NASIR Y S, GUO D. Multi-agent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2239-2250. doi: 10.1109/JSAC.2019.2933973
⽹络资源管理
分层内容交付⽹络中⽤于⾃适应缓存的深度强化学习
[27] SADEGHI A, WANG G, GIANNAKIS G B. Deep reinforcement learning for adaptive caching in hierarchical content delivery networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2019, 5(4): 1024-1033. doi:
10.1109/TCCN.2019.2936193
预计缓存将在下⼀代内容交付基础结构,蜂窝⽹络和Internet体系结构中发挥关键作⽤。通过在⾮⾼峰需求实例期间将最流⾏的内容智能地存储在启⽤存储的⽹络实体上,在⾼峰时段,缓存可以使⽹络基础结构以及最终⽤户受益。在这种情况下,在⽹络实体之间分配有限的存储容量需要分散式缓存⽅案。许多实际的缓存系统都涉及⼀个⽗缓存节点,该⽗缓存节点连接到多个叶节点以服务于⽤户⽂件请求。
为了建模在⽗节点和叶节点的缓存决策之间的双向交互影响,提出了⼀种强化学习框架。为了处理较⼤的连续状态空间,追求了可扩展的深度强化学习⽅法。
这种新颖的⽅法依靠⼀个深层的Q⽹络来以在线⽅式学习Q功能,从⽽学习最佳的缓存策略。
增强的⽗节点具有学习和适应叶节点的未知策略的能⼒以及⽂件请求的时空动态演变的能⼒,这会产⽣出⾊的缓存性能,这通过数值测试得到了证实。
边缘计算⽀持的物联⽹中基于联合学习的计算分载优化
[28] REN J, WANG H, HOU T, et al. Federated learning-based computation offloading optimization in edge computing-supported internet of things[J]. IEEE Access, 2019, 7: 69194-69201. doi: 10.1109/ACCESS.2019.2919736
智能城市,⼯⼚,医疗保健系统等的最新可视化对⼤型物联⽹(IoT)设备的功能和连接性提出了挑战。因此,出现了边缘计算以通过将繁重的计算任务从它们分担到边缘节点的想法来补充这些能⼒受限的设备。通过利⽤此功能,物联⽹设备能够节省更多能源,并仍保持其应提供的服务质量。
然⽽,计算卸载决策涉及联合和复杂的资源管理,并且应⾯对动态⼯作负载和⽆线电环境实时确定。
因此,在这项⼯作中,我们使⽤部署在物联⽹设备上的多个深度强化学习(DRL)代理来指导⾃⾝的决策。
另⼀⽅⾯,联合学习⽤于以分布式⽅式培训DRL代理,旨在使基于DRL的决策切实可⾏,并进⼀步降低IoT设备与边缘节点之间的传输成本。
实验结果证实了动态物联⽹系统中DRL和联合学习的有效性。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论