(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211058834.9
(22)申请日 2022.08.31
(65)同一申请的已公布的文献号
申请公布号 CN 115134174 A
(43)申请公布日 2022.09.30
(73)专利权人 中国人民解 放军战略支援 部队航
天工程大 学
地址 101416 北京市怀柔区八一路一 号
(72)发明人 石成豪 王宇 钱克昌 熊达鹏
万颖 吴曙光 苏英豪
(74)专利代理 机构 北京天盾知识产权代理有限
公司 11421
专利代理师 姜有保
(51)Int.Cl.
H04L 9/40(2022.01)H04L 41/16(2022.01)
H04L 41/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111600851 A,2020.08.28
EP 248786 0 A1,2012.08.15
CN 113179263 A,2021.07.27
CN 109120 549 A,2019.01.01
CN 109120 549 A,2019.01.01
CN 114363093 A,202 2.04.15
审查员 芦霞
(54)发明名称
基于改进A ctor-Critic算法的SDN下自适应
威胁缓解方法及系统
(57)摘要
本发明涉及网络安全技术领域, 具体公开了
基于改进Actor ‑Critic算 法的SDN下自适应威胁
缓解方法及系统, 包括架设SDN下自适应威胁缓
解架构, SDN下自适应威胁缓解架构包括深度强
化学习代理, 其为基于改进Actor ‑Critic算法搭
建的深度神经网络; 训练基于改进A ctor‑Critic
算法搭建的深度神经网络, 以获得自适应威胁缓
解代理; 基于自适应威胁缓解代理输出最优自适
应网络威胁缓解策略, 基于最优自适应网络威胁
缓解策略来改变网络安全部署; 该方法对Actor ‑
Critic算法进行改进, 对于长序列、 不完全信息
的观测环 境效果更好, 能产生更好网络威胁缓解
策略。
权利要求书3页 说明书9页 附图4页
CN 115134174 B
2022.11.25
CN 115134174 B
1.一种基于改进Actor ‑Critic算法的SDN下自适应威胁缓解方法, 其特征在于, 包括以
下步骤:
S100: 架设SDN下自适应威胁缓解架构, 所述SDN下自适应威胁缓解架构包括深度强化
学习代理、 SDN基础设施和主机配置; 其中, 所述深度强化学习代理为基于改进Actor ‑
Critic算法搭建的深度神经网络, 所述基于改进Actor ‑Critic算法搭建的深度神经网络包
括改进Critic网络和Actor 网络, 所述 改进Critic网络为四层结构, 其第一层、 第三层和第
四层为全连接层, 第二层为LSTM网络; 所述SDN基础设施用于获取网络观测状态, 所述主机
配置用于反馈服 务质量和攻击进度;
S200: 训练基于改进Actor ‑Critic算法搭建的深度神经网络, 以获得自适应威胁缓解
代理;
S300: 基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略, 以及基于所
述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁;
其中, 所述 步骤S200包括以下子步骤:
S210: 设置服 务质量和攻击进度所对应的奖励量 化标准;
S220: 初始化基于改进Actor ‑Critic算法搭建的深度神经网络中的超参数与神经网络
参数;
S230: 判断是否达到最大迭代次数, 若是, 则输出自适应威胁缓解代理, 若否, 则获取当
前网络观测状态;
S240: 随机生成一个随机浮点数, 若随机浮点数大于探索参数, 则执行探索动作, 即随
机选取一个部署动作; 若随机浮 点数小于或等于 探索参数, 则不执 行探索动作;
S250: 判断经验回放池中是否存在回合序列, 若经验回放池中存在回合序列, 则从经验
回放池中进行采样并训练, 更新Actor和改进Critic网络, 并进一步判断当前回合是否结
束; 若经验回放池中不存在回合序列, 则直接判断当前回合是否结束;
若当前回合结束, 则将回合序列放入到经验回放池中, 并再次判断是否达到最大迭代
次数, 若达到最大迭代 次数, 则输出自适应威胁缓解代理, 若未达到最大迭代 次数, 则循环
步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的自适应威胁缓解代理; 若
当前回合未结束, 则循环 步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的
自适应威胁缓解代理。
2.根据权利要求1所述的S DN下自适应威胁缓解方法, 其特 征在于, 所述 步骤S240包括:
若随机浮点数小于或等于探索参数, 则将当前网络观测状态输入到Actor网络中从而
输出一个部署动作;
在SDN网络中执行部署动作, 调用Mysql数据库来记录得到的新网络观测状态, 调用正
常主机的服务质量和恶意主机的攻击进度信息, 基于所述服务质量和攻击进度所对应的奖
励量化标准将服 务质量和攻击进度信息进行量 化, 以获得 奖励回报;
部署动作执行完成后, 将当前网络观测状态、 部署动作、 奖励回报和新网络观测状态添
加到回合序列中。
3.根据权利要求2所述的SDN下自适应威胁缓解方法, 其特征在于, 所述步骤S200中还
包括通过构建时间序列控制模型进行观测及部署;
所述时间序列控制模型的构建为: 在一个时间段内, 每间隔一定时间对网络状态进行权 利 要 求 书 1/3 页
2
CN 115134174 B
2一次观测, 并执 行一次部署。
4.根据权利要求2所述的SDN下自适应威胁缓解方法, 其特征在于, 网络观测状态包括
前30s内SDN网络中主机的发送流量大小、 接收流量大小、 UDP报警数和TCP报警数中的一种
或多种信息 。
5.根据权利要求4所述的SDN下自适应威胁缓解方法, 其特征在于, 所述网络观测状态
还包括网络服 务连接数量和开 放端口数目的特 征信息。
6.根据权利要求1所述的SDN下自适应威胁缓解方法, 其特征在于, 所述步骤S250中从
经验回放池中进行采样并训练, 更新Actor和改进Critic网络包括:
从经验回放池中进行采样, 使用样本数据对基于改进Actor ‑Critic算法搭建的深度神
经网络进行训练, 并更新Actor和改进Critic网络; 其中, 从经验回放池中进行采样包括:
若经验回放池中至少存在一 次完整的回合序列, 则在经验回放池中随机选取一个回合
序列, 在该回合序列中随机 选取一段序列进行采样。
7.根据权利要求6所述的SDN下自适应威胁缓解方法, 其特征在于, 使用样本数据对基
于改进Actor ‑Critic算法搭建的深度神经网络进行训练, 并更新Actor和改进Critic网络
包括:
结合样本数据, 先使用改进Actor ‑Critic算法中的改进Critic网络通过时间差分算法
计算TD‑Error, 通过TD ‑Error计算MSE均方差损失函数, 并使用梯度下降法对改进Actor ‑
Critic算法中的改进Critic网络的网络参数进行更新, 再结合计算好的TD ‑Error, 使用策
略梯度和梯度上升算法对Actor网络参数进行 更新。
8.一种基于改进Actor ‑Critic算法的SDN下自适应威胁缓解系统, 其特征在于, 包括
SDN下自适应威胁缓解架构架设模块、 训练模块和部署模块;
所述SDN下自适应威胁缓解架构架设模块用于架设SDN下自适应威胁缓解架构, 所述
SDN下自适应威胁缓解架构包括深度强化学习代理、 SDN基础设施和主机配置; 其中, 所述深
度强化学习代理为基于改进Actor ‑Critic算法搭建的深度神经网络, 所述基于改进Actor ‑
Critic算法搭建的深度神经网络包括改进Critic网络和Actor 网络, 所述改进Critic网络
为四层结构, 其第一层、 第三层和第四层为全 连接层, 第二层为LSTM网络; 所述SDN基础设施
用于获取网络观测状态, 所述主机配置用于反馈服 务质量和攻击进度;
所述训练模块用于训练基于改进Actor ‑Critic算法搭建的深度神经网络, 以获得自适
应威胁缓解代理;
所述部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略,
以及基于所述 最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁;
其中, 所述训练模块执 行以下操作:
S210: 设置服 务质量和攻击进度所对应的奖励量 化标准;
S220: 初始化基于改进Actor ‑Critic算法搭建的深度神经网络中的超参数与神经网络
参数;
S230: 判断是否达到最大迭代次数, 若是, 则输出自适应威胁缓解代理, 若否, 则获取当
前网络观测状态;
S240: 随机生成一个随机浮点数, 若随机浮点数大于探索参数, 则执行探索动作, 即随
机选取一个部署动作; 若随机浮 点数小于或等于 探索参数, 则不执 行探索动作;权 利 要 求 书 2/3 页
3
CN 115134174 B
3
专利 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:29上传分享