每周文章分享
2022.09.19-2022.09.25
标题: Non-Uniform Time-Step Deep Q-Network for Carrier-Sense Multiple Access in Heterogeneous Wireless Networks
期刊: IEEE Transactions on Mobile Computing, vol. 20, no. 9, pp. 2848-2861, 1 Sept. 2021.
作者: Yiding Yu; Soung Chang Liew; Taotao Wang.
分享人: 河海大学——郭依萍
01
研究背景
BACKGROUND
研究背景
现有的CSMA (carrier-sense multiple access)协议,如WiFi的MAC (medium access control)协议,都是针对同构网络设计的,所有节点都采用相同的协议。该协议在异构环境中存在节点采用其他MAC协议时,性能下降严重。CS-DLMA (carrier-sense deep-reinforcement learning multiple access) 旨在通过使用深度强化学习DRL来规避这个问题。
CS-DLMA的一个显著特征是,它可以通过基于DRL的学习过程在不知道共存MAC的情况下实现这些目标。CS-DLMA中的关键DRL技术是深度Q网络(Deep Q-network, DQN)。然而,传统的DQN算法由于其均匀的时间步长假设而不适用于CS-DLMA。在CSMA协议中,载波感知所需的时间长度小于数据传输的时间长度,因此时间步长是不均匀的。
02
关键技术
TECHNOLOGY
关键技术
本文研究了一种采用深度强化学习(DRL)技术的新型载波感知多址(CSMA)协议,用于异构无线网络的频谱共享,即CS-DLMA。它不仅优化自己的吞吐量,而且根据一般的α-公平目标优化其他共存网络的吞吐量。此外,本文引入了一种非均匀时间步长的多维DQN算法来解决时间步长不均匀的问题。
该方法的创新和贡献如下:
1)本文提出了一种新的基于DRL的CSMA协议,称为CS-DLMA,用于异构无线网络的频谱共享。CS-DLMA的一个显著特征是,它不仅优化自己的吞吐量,而且根据一般的α-公平目标优化其他共存网络的吞吐量。重要的是,CS-DLMA在不知道其他网络的MAC协议的情况下实现了这一点。
2)本文证明了CS-DLMA可以通过调整自身的传输策略,在与TDMA、ALOHA和WiFi协议共存时实现一般的α-公平目标。
3)本文为了使CS-DLMA能够达到上述性能,我们提出了一种非均匀时间步长多维DQN算法。虽然只关注在无线网络中使用改进的DQN算法,但它也可以在其他具有类似的非均匀时间步长和多维特征的领域中使用。
03
算法介绍
ALGORITHMS
算法介绍
1. 系统模型
图1 DARPA 频谱协同挑战的网络模型
本文所考虑的系统模型是受DARPA频谱协作挑战(SC2)网络模型的启发。如图1所示,DARPA SC2的模型由一个协作网络和多个无线网络组成。所有的无线网络共享一个共同的无线媒体。在DARPA SC2中,协作网络是一个独立于无线数据网络的控制网络。协作网络允许不同的无线网络在高层次上交流协作信息。然而,每个无线网络并不告诉其他网络它的MAC协议。
DARPA SC2模型的一个重要特点是,在每个无线网络中,都指定一个节点作为网关,通过协作网络与其他无线网络的网关进行协作信息交换。在这项工作中,我们假设协作信息包括网络的传输结果,如数据包传输的成功/失败和数据包持续时间。无线网络的网关又可以与自己的节点共享其他无线电网络的传输结果。利用协同信息,无线网络可以通过自适应MAC协议调整其传输策略,以达到公平和最优的方式与其他网络共享无线频谱的某种全局目标。
2. CS-DLMA的整体DQN体系结构
图2显示了实现CS-DLMA的整体DQN体系结构。我们现在描述了体系结构中的三个关键组成部分: (1)神经网络,(2)经验缓冲区,(3)连续经验重放。
图2 实现CS-DLMA的DQN体系结构
1)神经网络:用于非均匀多维数字量化网络的神经网络是一个递归神经网络(RNN)。RNN由一个输入层、两个隐藏层和一个输出层组成。RNN的输入是当前状态。这两个隐藏层由一个LSTM层和一个前馈层组成。输出是给定输入状态的不同动作和不同节点的近似Q值。在接收st + 1之后,RNN在st + 1中依次处理元素ct-M + 2,... ,ct,ct + 1,保持内部状态,以连续的方式将元素一个接一个地注入到输入中。通过这种方式,st + 1中元素之间的因果关系(例如,ct 先于ct + 1)显式地嵌入在RNN处理输入的方式中。
2)经验缓冲区:对于实现来说,以et = (st,at,d(at),rt + 1,st + 1)的形式存储经验是低效的,因为两个连续的经验有许多共同的元素。一个更有效的实现方式是存储简化的经验(ct,at,d (at),rt + 1,ct + 1)。完整的经验等可以通过连续的经验回放从连续的简化经验中获得。
3)连续体验重放:在传统的经验重放中,从经验缓冲区采样随机经验来计算损失函数,每个样本是经验et = (st,at,d(at),rt + 1,st + 1)。在将经验简化为(ct,at,d (at),rt + 1,ct + 1)之后,我们将对连续经验进行抽样,以提取计算损失函数所需的信息。如图3所示,每个样本包含M个连续经验,我们可以从这个样本中提取st = [ ct-M + 1,... ,ct-1,ct ] ,at,d (at),rt + 1,st + 1 = [ ct-M + 2,... ,ct,ct + 1]。
图3 连续经验重放中的一个例子
3. 多节点CS-DLMA框架
本文的多节点 CS-DLMA框架与单节点CS-DLMA框架相同。
本文假设CS-DLMA网络中有一个与CS-DLMA节点相关联的CS-DLMA网关。网关负责协调CS-DLMA节点的运行,使它们相互共存,并与运行其他协议的节点共存,以满足α-公平性的目标。如果CS-DLMA网关决定执行载波传感,它将监听该信道并检查该信道是否被来自其他网络的节点占用;如果CS-DLMA网关决定传输一个分组,它将以循环方式选择CS-DLMA节点中的一个进行传输(CS-DLMA网关本身也是CS-DLMA节点)。从CS-DLMA网关到其他CS-DLMA节点的指令可以通过 CS-DLMA网络中的控制信道发送。
04
实验结果
EXPERIMENTS
实验结果
为了评估CS-DLMA的性能,本文首先研究了CS-DLMA与TDMA和ALOHA这两种无载波传感的MAC协议的共存问题。接着,本文研究了CS-DLMA与WiFi的共存问题。为了具体起见,本文重点研究了饱和网络,即网络中的所有节点总是有数据包要传输。此外,由于我们没有控制TDMA,ALOHA和WiFi,在本文的评估中,假设这些节点的包长度是固定的。
1. 仿真设置
1)超参数:我们设置M = 20,ε-贪婪算法中ε的值初始设置为1,每个时间步长以0.995的速率递减,直到其值达到0.005,γ设置为0.999。经验缓冲区的大小是1000。小批量的NE设置为32。目标网络每20个时间步骤更新一次。表1总结了超参数的值。
表1 CS-DLMA 超参数
2)性能指标:我们通过检验下式中的目标是否能够实现来评估CS-DLMA的性能。
3)其中 r(i)t’+1是时间步长t’结束时节点i的报酬,d(at’)是时间步长t’结束时的作用时间。这里的吞吐量是平均回报,反映了每个节点在长期运行中的性能。
2. CS-DLMA的性能分析
1) CS-DLMA与TDMA和ALOHA并存:本文研究CS-DLMA是否能够在不知道TDMA和ALOHA的MAC的情况下找到不同α值的最优策略。图4绘制了CS-DLMA、TMDA和ALOHA的单个吞吐量,以及模型感知节点的相应最优单个吞吐量。如图4所示,对于不同的α值,每个节点的单个吞吐量都接近其相应的最佳结果,表明CS-DLMA确实可以找到一种策略,以实现不同α值的α-公平目标。
图4 不同α值下CS-DLMA、TDMA和ALOHA的单吞吐量
2) CS-DLMA与WiFi共存:本文首先给出了CS-DLMA和WiFi在不同α值下的各自吞吐量。如图5所示,当α值从0增加到50时,CS-DLMA和WiFi的吞吐量更接近。特别是,当α= 0时,CS-DLMA的目标是使总吞吐量最大化,而CS-DLMA的策略是一种贪婪的策略,即CS-DLMA总是在感知到信道空闲时发送信息;当α增加时,CS-DLMA变得不那么具有侵略性,并为WiFi留下更多的机会,直到CS-DLMA和WiFi的吞吐量几乎相等。这说明CS-DLMA确实可以根据α的值来调整自身的传输策略。
图5 CS-DLMA和WiFi在不同α值下的单独吞吐量
3) 两个CS-DLMA与WiFi共存: 本文考虑两个CS-DLMA节点与一个WiFi节点共存的情况,以检验我们的多节点CS-DLMA框架能否根据α的值和CS-DLMA节点的数量调整其传输策略。两个 CS-DLMA节点中的一个被指定为网关。图6显示了两个CS-DLMA节点的总吞吐量和WiFi节点的吞吐量。如图6所示,当α增加时,CS-DLMA的吞吐量与WiFi的吞吐量之和更加接近。具体地说,当α = 50时,CS-DLMA的总吞吐量是WiFi吞吐量的两倍(0.40/0.20) ,这意味着每个CS-DLMA节点的吞吐量等于WiFi的吞吐量。这说明本文提出的多节点CS-DLMA方案可以根据CS-DLMA节点的数量来调整CS-DLMA的权重。
图6 两个CS-DLMA节点的吞吐量之和,以及一个WiFi节点对不同α值的吞吐量
4) 多CS-DLMA与多个WiFi共存:为了进一步证明多节点CS-DLMA框架的性能,我们现在考虑三种共存场景:
1) 4个CS-DLMA节点和4个WiFi节点;
2) 4个p-CSMA节点和4个WiFi节点;
3) 8个WiFi节点;
在场景1中,值α被设置为50,在四个CS-DLMA节点和四个WiFi节点之间实现相同的吞吐量;在场景2中,每个p-CSMA节点采用相同的p值,并且我们调整p的值以使每个p-CSMA节点的吞吐量等于每个WiFi节点的吞吐量;在场景3中 ,八个WiFi节点是同构的。图7显示了上述三种情况下每个节点的单独吞吐量。总的来说,在所有场景中,所有节点之间的吞吐量大致相等。然而,场景1中的吞吐量比场景2和场景3中的吞吐量高10%左右。
图7 每个节点在三种共存场景下的单独吞吐量
05
总结
CONCLUSION
总结
本文提出了一种具有载波感知能力的深度强化学习多址接入协议,称为CS-DLMA。CS-DLMA的目标是在一组共处的异构无线网络中实现有效和公平的频谱共享。CS-DLMA的一个显著特点是它可以在不知道其他网络MAC细节的情况下与其他MAC协议在异构环境中和谐共存。本文证明了CS-DLMA可以 通过调整自己的传输策略,与TDMA,ALOHA和WiFi协议共存时,实现一般的α-公平目标。
CS-DLMA的基础DRL技术是DQN技术。然而,传统的DQN及其扩展的多维DQN并不适用于CSMA协议的设计,因为在传统的DQN框架中存在着潜在的均匀时间步长的假设。对于CSMA协议,时间步长是不均匀的,因为载波感知的持续时间小于数据传输的持续时间。因此,本文介绍了一个非均匀的时间步长DQN算法来解决这个问题。虽然本文只关注改进的DQN算法在无线网络中的应用,但是我们相信非均匀时间步长的DQN算法在其他领域也可以得到应用。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇