全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211050159.5 (22)申请日 2022.08.31 (65)同一申请的已公布的文献号 申请公布号 CN 115118532 A (43)申请公布日 2022.09.27 (73)专利权人 中国人民解 放军战略支援 部队航 天工程大 学 地址 101416 北京市怀柔区八一路一 号 (72)发明人 石成豪 王宇 钱克昌 熊达鹏  万颖 吴曙光 苏英豪  (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 姜有保 (51)Int.Cl. H04L 9/40(2022.01)H04L 41/16(2022.01) H04L 41/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114363093 A,202 2.04.15 CN 113937829 A,2022.01.14 CN 112701681 A,2021.04.23 US 202107873 5 A1,2021.0 3.18 韩润海等.基 于奖励塑造和D3Q N的自主空战 机动决策研究. 《2021中国自动化大会论文集 》 .2021, 审查员 廖然 (54)发明名称 基于改进D3QN算法的SDN下自适应威胁缓解 方法及系统 (57)摘要 本发明涉及网络安全技术领域, 具体公开了 基于改进D3QN算 法的SDN下自适应威胁缓解方法 及系统, 包括架设SDN下自适应威胁缓解架构, SDN下自适应威胁缓解架构 包括深度强化学习代 理、 SDN基础设施和主机配置; 深度强化学习代理 为基于改进D3QN算法搭建的深度神经网络, SDN 基础设施用于获取网络观测状态, 主机配置用于 反馈服务质量和攻击进度; 训练基于改进D3QN算 法搭建的深度神经网络, 以获得自适应威胁缓解 代理; 基于自适应威胁缓解代理输出最优自适应 网络威胁缓解策略, 基于最优自适应网络威胁缓 解策略来改变网络安全部署; 该方法对D3QN算法 进行改进, 使改进后的D3QN算法对于长序列、 不 完全信息的观测环境效果更好, 产生更好网络威 胁缓解策略。 权利要求书3页 说明书9页 附图4页 CN 115118532 B 2022.11.25 CN 115118532 B 1.一种基于改进D3Q N算法的SDN下自适应威胁缓解方法, 其特 征在于, 包括以下步骤: S100: 架设SDN下自适应威胁缓解架构, 所述SDN下自适应威胁缓解架构包括深度强化 学习代理、 SDN基础设施和主机配置; 其中, 所述深度 强化学习代理为基于 改进D3QN算法搭 建的深度神经网络, 所述SDN基础设施用于获取网络观测状态, 所述主机配置用于反馈服务 质量和攻击进度; S200: 训练基于改进D3Q N算法搭建的深度神经网络, 以获得自适应威胁缓解代理; S300: 基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略, 以及基于所 述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁; 其中, 所述 步骤S200包括以下子步骤: S210: 设置服 务质量和攻击进度所对应的奖励量 化标准; S220: 初始化基于改进D3Q N算法搭建的深度神经网络中的超参数与神经网络参数; S230: 判断是否达到最大迭代次数, 若是, 则输出自适应威胁缓解代理, 若否, 则获取当 前网络观测状态; S240: 随机生成一个随机浮点数, 若随机浮点数大于探索参数, 则执行探索动作, 即随 机选取一个部署动作; 若随机浮 点数小于或等于 探索参数, 则不执 行探索动作; S250: 判断经验回放池中是否存在回合序列, 若经验回放池中存在回合序列, 则从经验 回放池中进行采样并训练, 并进一步判断当前回合是否结束; 若经验回放池中不存在回合 序列, 则直接判断当前回合是否结束; 若当前回合结束, 则将回合序列放入到经验回放池中, 并再次判断是否达到最大迭代 次数, 若达到最大迭代 次数, 则输出自适应威胁缓解代理, 若未达到最大迭代 次数, 则循环 步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的自适应威胁缓解代理; 若 当前回合未结束, 则循环 步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的 自适应威胁缓解代理。 2.根据权利要求1所述的SDN下自适应威胁缓解方法, 其特征在于, 所述基于改进D3QN 算法搭建的深度神经网络包括共享网络层, 所述共享网络层的第一层和第三层为全连接 层, 第二层为 LSTM网络 。 3.根据权利要求1所述的S DN下自适应威胁缓解方法, 其特 征在于, 所述 步骤S240包括: 若随机浮点数小于或等于探索参数, 则将当前网络观测状态输入到深度强化学习代 理 中, 从而输出一个部署动作; 在SDN网络中执行部署动作, 调用Mysql数据库记录得到的新网络观测状态, 调用正常 主机的服务质量和恶意主机的攻击进度信息, 基于服务质量和攻击进度所对应的奖励量化 标准将服 务质量和攻击进度信息进行量 化, 以获得 奖励回报; 部署动作执行完成后, 将当前网络观测状态、 部署动作、 奖励回报和新网络观测状态添 加到回合序列中。 4.根据权利要求3所述的SDN下自适应威胁缓解方法, 其特征在于, 所述步骤S200中还 包括通过构建时间序列控制模型进行观测及部署; 所述时间序列控制模型的构建为: 在一个时间段内, 每间隔一定时间对网络状态进行 一次观测, 并执 行一次部署。 5.根据权利要求3所述的SDN下自适应威胁缓解方法, 其特征在于, 网络观测状态包括权 利 要 求 书 1/3 页 2 CN 115118532 B 2前30s内SDN网络中主机的发送流量大小、 接收流量大小、 UDP报警数和TCP报警数中的一种 或多种信息 。 6.根据权利要求5所述的SDN下自适应威胁缓解方法, 其特征在于, 所述网络观测状态 还包括网络服 务连接数量和开 放端口数目的特 征信息。 7.根据权利要求1所述的SDN下自适应威胁缓解方法, 其特征在于, 所述步骤S250中从 经验回放池中进行采样并训练包括: 从经验回放池中进行采样, 使用样本数据对基于改进D3QN算法搭建的深度神经网络进 行训练; 其中, 从经验回放池中进行采样包括: 若经验回放池中至少存在一 次完整的回合序列, 则在经验回放池中随机 选取一个回合序列, 在该回合序列中随机 选取一段序列进行采样。 8.根据权利要求7所述的SDN下自适应威胁缓解方法, 其特征在于, 使用样本数据对基 于改进D3Q N算法搭建的深度神经网络进行训练包括: 基于Q‑Network和Target  Q‑Network结合样本数据通过时间差分算法计算TD ‑Error, 再通过TD ‑Error计算MSE均方差损失函数, 并使用梯度下降法对Q ‑Network的网络参数进行 更新, 最后使用Q ‑Network的网络参数对Target  Q‑Network的网络参数进行 软更新。 9.一种基于改进D3QN算法的SDN下自适应威胁缓解系统, 其特征在于, 包括SDN下自适 应威胁缓解架构架设模块、 训练模块和部署模块; 所述SDN下自适应威胁缓解架构架设模块用于架设SDN下自适应威胁缓解架构, 所述 SDN下自适应威胁缓解架构包括深度强化学习代理、 SDN基础设施和主机配置; 其中, 所述深 度强化学习代理为基于 改进D3QN算法搭建的深度神经网络, 所述SDN基础设施用于获取网 络观测状态, 所述主机配置用于反馈服 务质量和攻击进度; 所述训练模块用于训练基于改进D3QN算法搭建的深度神经网络, 以获得自适应威胁缓 解代理; 所述部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略, 以及基于所述 最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁; 其中, 所述训练模块执 行以下操作: S210: 设置服 务质量和攻击进度所对应的奖励量 化标准; S220: 初始化基于改进D3Q N算法搭建的深度神经网络中的超参数与神经网络参数; S230: 判断是否达到最大迭代次数, 若是, 则输出自适应威胁缓解代理, 若否, 则获取当 前网络观测状态; S240: 随机生成一个随机浮点数, 若随机浮点数大于探索参数, 则执行探索动作, 即随 机选取一个部署动作; 若随机浮 点数小于或等于 探索参数, 则不执 行探索动作; S250: 判断经验回放池中是否存在回合序列, 若经验回放池中存在回合序列, 则从经验 回放池中进行采样并训练, 并进一步判断当前回合是否结束; 若经验回放池中不存在回合 序列, 则直接判断当前回合是否结束; 若当前回合结束, 则将回合序列放入到经验回放池中, 并再次判断是否达到最大迭代 次数, 若达到最大迭代 次数, 则输出自适应威胁缓解代理, 若未达到最大迭代 次数, 则循环 步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的自适应威胁缓解代理; 若 当前回合未结束, 则循环 步骤S230~S250的迭代训练过程, 最后获得当前SDN网络环 境下的权 利 要 求 书 2/3 页 3 CN 115118532 B 3

PDF文档 专利 基于改进D3QN算法的SDN下自适应威胁缓解方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进D3QN算法的SDN下自适应威胁缓解方法及系统 第 1 页 专利 基于改进D3QN算法的SDN下自适应威胁缓解方法及系统 第 2 页 专利 基于改进D3QN算法的SDN下自适应威胁缓解方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。