全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211040901.4 (22)申请日 2022.08.29 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 徐东伟 王达 李呈斌  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 王兵 王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于木马攻击的深度强化学习交通信号控 制中毒攻击方法 (57)摘要 本发明公开了一种基于木马攻击的深度强 化学习交通信号控制中毒攻击方法, 根据已有的 深度强化学习DQN算法并加入木马攻击对交通路 口信号灯控制模 型进行训练, 通过修改指定位置 的车辆信息生成异常交通状态数据, 再设定异常 交通状态数据下模型采取的异常动作, 最后对该 异常状态下采取的异常动作设定较高的奖励值 实现深度强化学习DQN算法的中毒攻击。 本发明 最后在模型测试过程中增加路口的车辆等待时 间, 大幅降低模型的性能, 大大降低交通路口的 车辆流通效率。 权利要求书3页 说明书8页 附图3页 CN 115426150 A 2022.12.02 CN 115426150 A 1.一种基于 木马攻击的深度强化学习交通信号控制中毒攻击方法, 包括以下步骤: 步骤1: 在单交叉口的道路网格上训练强化学习DQN, 即Deep  Q Network智能体模型, 在 训练过程中对交通状态数据进 行收集并分析记录车辆出现次数最少的位置, 用于生成异常 交通状态数据; 步骤2: 基于所述步骤1中生成的异常交通状态数据, 当DQN智能体观察到该异常交通状 态数据时, 将异常动作设为此时的输出动作, 从而降低此时的交通路口通行效率; 对于正常 的交通状态数据, DQ N智能体依然采取最优的动作控制交叉口车辆流 通; 步骤3: 对于所述步骤2中的两种情况: ①正常交通状态数据 下采取的最优动作, ②异常 交通状态数据下采取 的异常动作, 通过对奖励函数进行修改实现上述情况; 正常交通状态 数据下采取的最优动作, 此时的奖励为交叉口环 境返回的上一时刻车辆等待时间与当前车 辆等待时间的差值; 而异常交通状态数据下采取 的异常动作, 此时设置较高的奖励值并且 该奖励值会随着训练的进行 逐步衰减; 步骤4: 在异常交通状态数据的生成过程中, 需要考虑原始交叉口包含的车辆数量从而 限制扰动, 并且仅当扰动量小于20%时才将生成的异常交通状态数据输入DQN模型; 此外, 异常交通状态数据仅以9%概 率作为输入数据进行模型的训练; 步骤5: 最后在sumo上对训练完成的中毒模型进行性能测试, 将正常或异常交通状态数 据输入到DQN模 型中, 智能体会根据当前状态选取 交通信号灯的相位, 来控制交叉口的车流 量; 通过对交叉口车辆等待时间的对比和异常交通状态数据下DQN模型采取异常动作的成 功率验证攻击算法的有效性。 2.如权利要求1所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其 特征在于, 所述步骤1 中的单交叉口的道路是十字交叉口的道路; 首先在单 交叉口道路 网格 上训练强化学习智能体模型, 对进入单交叉 口的所有道路上 的交通状态进行离散编码; 将 单交叉口从路段入口到停车线之间长度为l的道路k(k=1,2,3,4)等距离划分为c个离散单 元, 将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵sk(t), 当车辆头部位于某个 离散单元上时, 则车辆位置矩阵sk(t)对应第i(i=1,2, …,c)个位置的值为0.5, 否则值为 ‑ 0.5, 公式表示 为: 其中 表示车辆位置矩阵sk(t)第i个位置 的值; 将t时刻四个路口输入端的车辆位 置矩阵sk(t)按行首尾拼接构成st, 公式表示 为: st=[s1(t),s2(t),s3(t),s4(t)]                  (2) 再把st作为交通状态数据输入到智能体模型中训练, 智能体输出相应的动作即红绿灯 将要执行的相位, 如南北绿灯或东西绿灯; 在单交叉口道路网格上训练强化学习智能体模型, 对进入交叉口的所有道路上的车辆 进行离散状态编码即将进入交叉口的车辆的数量及其位置进 行记录并作为交通状态数据, 通过对记录的交通状态数据进行分析比对, 找出车辆出现次数最少的车辆位置, 用于生成 异常交通状态数据; 同时被选定为生成异常交通状态数据的车辆位置需要满足以下条件: 不能离交叉 口的停止线太近; 正常行驶的车辆在这些车辆位置上应出现地尽可能少, 公式权 利 要 求 书 1/3 页 2 CN 115426150 A 2表示为: 其中 μ通常被设置为0, 仅当异常 交通状态数据被 添加时才设为1, st′表示异常 交通状态 数据, st表示正常交通状态数据。 3.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其 特征在于, 所述 步骤2的过程如下: 获取t时刻输入模型 的输入值st,其中st代表t时刻从sumo获取的交通路口输入端车辆 数量及其所处位置; 我们定义交通灯的相位作 为动作空间A={a1,a2,a3,a4}, 其中a1为东西 方向绿灯, a2为东西方向左转绿灯, a3为南北方向绿灯, a4为南北方向左转绿灯; 在运行时设 ai的相位的初始时长为m, 黄灯相位时长为n; 在t时刻将当前状态st输入到智能交通灯模型 中, 智能交通灯选择相位ai(i=1,2,3,4), 当ai相位执行完后, 智能交通灯从环境中采集t+1 时刻的状态st+1, 然后选择相位aj(j=1,2,3,4); 若ai≠aj则ai相位执行时间不再延长, 即ai 相位结束, 在ai相位结束后智能交通灯执行黄灯相位, 在黄灯相位结束后, 执行aj相位; 若ai =aj, 则ai相位执行时间延长m; 在预先设定的交叉口中, 交通信号控制的直行车道数要比左转车道多, 因此, 将南北方 向左转相位a2设为观察到异 常交通状态数据时采取的异 常动作; 在此设置中, DQN模型会根 据正常流量状态数据选择最优动作, 根据异常流量状态数据选择预设的目标动作, 公式描 述为: 4.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其 特征在于, 所述 步骤3的过程如下: 若输入DQN智能体的数据为正常交通状态数据, 则 输出动作为当前时刻的最优相位, 将 t时刻的奖励rt设置为两个相邻相位之间交叉口车辆的等待时间之差, 公式表示 为: rt=Wt‑1‑Wt                       (5) 其中Wt‑1,Wt分别为t‑1时刻和t时刻进入交叉口所有车道的车辆等待时间; 若输入DQN智能体的数据为异常交通状态数据, 则 输出动作为异常动作, 南北方向左转 相位a2, 为了确保异 常动作是“最有利”的, 因此需要对被篡改的状态 ‑动作对设置较高的奖 励才能让DQ N模型学习到该异常策略, 奖励函数的设定如下 所示: 其中h代表一个 固定的高奖励值, 表示训练过程中出现贪心策略的概率, 其值随着训练 的进行从1衰减到0; 在此训练过程设置下, DQN模型学习的策略是具有正常流量状态数据的 最优动作和具有异常流 量状态数据的预设目标动作。 5.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其 特征在于, 所述 步骤4的过程如下: 计算扰动状态添加的扰动量 μ权 利 要 求 书 2/3 页 3 CN 115426150 A 3

PDF文档 专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法 第 1 页 专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法 第 2 页 专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。