专利基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211058834.9 (22)申请日 2022.08.31 (65)同一申请的已公布的文献号申请公布号 CN 115134174 A (43)申请公布日 2022.09.30 (73)专利权人中国人民解放军战略支援部队航天工程大学地址 101416 北京市怀柔区八一路一号 (72)发明人石成豪　王宇　钱克昌　熊达鹏　万颖　吴曙光　苏英豪　 (74)专利代理机构北京天盾知识产权代理有限公司 11421 专利代理师姜有保 (51)Int.Cl. H04L 9/40(2022.01)H04L 41/16(2022.01) H04L 41/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111600851 A,2020.08.28 EP 248786 0 A1,2012.08.15 CN 113179263 A,2021.07.27 CN 109120 549 A,2019.01.01 CN 109120 549 A,2019.01.01 CN 114363093 A,202 2.04.15 审查员芦霞 (54)发明名称基于改进A ctor-Critic算法的SDN下自适应威胁缓解方法及系统 (57)摘要本发明涉及网络安全技术领域，具体公开了基于改进Actor ‑Critic算法的SDN下自适应威胁缓解方法及系统，包括架设SDN下自适应威胁缓解架构， SDN下自适应威胁缓解架构包括深度强化学习代理，其为基于改进Actor ‑Critic算法搭建的深度神经网络；训练基于改进A ctor‑Critic 算法搭建的深度神经网络，以获得自适应威胁缓解代理；基于自适应威胁缓解代理输出最优自适应网络威胁缓解策略，基于最优自适应网络威胁缓解策略来改变网络安全部署；该方法对Actor ‑ Critic算法进行改进，对于长序列、不完全信息的观测环境效果更好，能产生更好网络威胁缓解策略。权利要求书3页说明书9页附图4页 CN 115134174 B 2022.11.25 CN 115134174 B 1.一种基于改进Actor ‑Critic算法的SDN下自适应威胁缓解方法，其特征在于，包括以下步骤： S100：架设SDN下自适应威胁缓解架构，所述SDN下自适应威胁缓解架构包括深度强化学习代理、 SDN基础设施和主机配置；其中，所述深度强化学习代理为基于改进Actor ‑ Critic算法搭建的深度神经网络，所述基于改进Actor ‑Critic算法搭建的深度神经网络包括改进Critic网络和Actor 网络，所述改进Critic网络为四层结构，其第一层、第三层和第四层为全连接层，第二层为LSTM网络；所述SDN基础设施用于获取网络观测状态，所述主机配置用于反馈服务质量和攻击进度； S200：训练基于改进Actor ‑Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理； S300：基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略，以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁；其中，所述步骤S200包括以下子步骤： S210：设置服务质量和攻击进度所对应的奖励量化标准； S220：初始化基于改进Actor ‑Critic算法搭建的深度神经网络中的超参数与神经网络参数； S230：判断是否达到最大迭代次数，若是，则输出自适应威胁缓解代理，若否，则获取当前网络观测状态； S240：随机生成一个随机浮点数，若随机浮点数大于探索参数，则执行探索动作，即随机选取一个部署动作；若随机浮点数小于或等于探索参数，则不执行探索动作； S250：判断经验回放池中是否存在回合序列，若经验回放池中存在回合序列，则从经验回放池中进行采样并训练，更新Actor和改进Critic网络，并进一步判断当前回合是否结束；若经验回放池中不存在回合序列，则直接判断当前回合是否结束；若当前回合结束，则将回合序列放入到经验回放池中，并再次判断是否达到最大迭代次数，若达到最大迭代次数，则输出自适应威胁缓解代理，若未达到最大迭代次数，则循环步骤S230～S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理；若当前回合未结束，则循环步骤S230～S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理。 2.根据权利要求1所述的S DN下自适应威胁缓解方法，其特征在于，所述步骤S240包括：若随机浮点数小于或等于探索参数，则将当前网络观测状态输入到Actor网络中从而输出一个部署动作；在SDN网络中执行部署动作，调用Mysql数据库来记录得到的新网络观测状态，调用正常主机的服务质量和恶意主机的攻击进度信息，基于所述服务质量和攻击进度所对应的奖励量化标准将服务质量和攻击进度信息进行量化，以获得奖励回报；部署动作执行完成后，将当前网络观测状态、部署动作、奖励回报和新网络观测状态添加到回合序列中。 3.根据权利要求2所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S200中还包括通过构建时间序列控制模型进行观测及部署；所述时间序列控制模型的构建为：在一个时间段内，每间隔一定时间对网络状态进行权　利　要　求　书 1/3 页 2 CN 115134174 B 2一次观测，并执行一次部署。 4.根据权利要求2所述的SDN下自适应威胁缓解方法，其特征在于，网络观测状态包括前30s内SDN网络中主机的发送流量大小、接收流量大小、 UDP报警数和TCP报警数中的一种或多种信息。 5.根据权利要求4所述的SDN下自适应威胁缓解方法，其特征在于，所述网络观测状态还包括网络服务连接数量和开放端口数目的特征信息。 6.根据权利要求1所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S250中从经验回放池中进行采样并训练，更新Actor和改进Critic网络包括：从经验回放池中进行采样，使用样本数据对基于改进Actor ‑Critic算法搭建的深度神经网络进行训练，并更新Actor和改进Critic网络；其中，从经验回放池中进行采样包括：若经验回放池中至少存在一次完整的回合序列，则在经验回放池中随机选取一个回合序列，在该回合序列中随机选取一段序列进行采样。 7.根据权利要求6所述的SDN下自适应威胁缓解方法，其特征在于，使用样本数据对基于改进Actor ‑Critic算法搭建的深度神经网络进行训练，并更新Actor和改进Critic网络包括：结合样本数据，先使用改进Actor ‑Critic算法中的改进Critic网络通过时间差分算法计算TD‑Error，通过TD ‑Error计算MSE均方差损失函数，并使用梯度下降法对改进Actor ‑ Critic算法中的改进Critic网络的网络参数进行更新，再结合计算好的TD ‑Error，使用策略梯度和梯度上升算法对Actor网络参数进行更新。 8.一种基于改进Actor ‑Critic算法的SDN下自适应威胁缓解系统，其特征在于，包括 SDN下自适应威胁缓解架构架设模块、训练模块和部署模块；所述SDN下自适应威胁缓解架构架设模块用于架设SDN下自适应威胁缓解架构，所述 SDN下自适应威胁缓解架构包括深度强化学习代理、 SDN基础设施和主机配置；其中，所述深度强化学习代理为基于改进Actor ‑Critic算法搭建的深度神经网络，所述基于改进Actor ‑ Critic算法搭建的深度神经网络包括改进Critic网络和Actor 网络，所述改进Critic网络为四层结构，其第一层、第三层和第四层为全连接层，第二层为LSTM网络；所述SDN基础设施用于获取网络观测状态，所述主机配置用于反馈服务质量和攻击进度；所述训练模块用于训练基于改进Actor ‑Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理；所述部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略，以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁；其中，所述训练模块执行以下操作： S210：设置服务质量和攻击进度所对应的奖励量化标准； S220：初始化基于改进Actor ‑Critic算法搭建的深度神经网络中的超参数与神经网络参数； S230：判断是否达到最大迭代次数，若是，则输出自适应威胁缓解代理，若否，则获取当前网络观测状态； S240：随机生成一个随机浮点数，若随机浮点数大于探索参数，则执行探索动作，即随机选取一个部署动作；若随机浮点数小于或等于探索参数，则不执行探索动作；权　利　要　求　书 2/3 页 3 CN 115134174 B 3

专利 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统

专利基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统