(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211040901.4
(22)申请日 2022.08.29
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 徐东伟 王达 李呈斌
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 王兵 王幸祥
(51)Int.Cl.
H04L 9/40(2022.01)
G08G 1/01(2006.01)
G08G 1/08(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于木马攻击的深度强化学习交通信号控
制中毒攻击方法
(57)摘要
本发明公开了一种基于木马攻击的深度强
化学习交通信号控制中毒攻击方法, 根据已有的
深度强化学习DQN算法并加入木马攻击对交通路
口信号灯控制模 型进行训练, 通过修改指定位置
的车辆信息生成异常交通状态数据, 再设定异常
交通状态数据下模型采取的异常动作, 最后对该
异常状态下采取的异常动作设定较高的奖励值
实现深度强化学习DQN算法的中毒攻击。 本发明
最后在模型测试过程中增加路口的车辆等待时
间, 大幅降低模型的性能, 大大降低交通路口的
车辆流通效率。
权利要求书3页 说明书8页 附图3页
CN 115426150 A
2022.12.02
CN 115426150 A
1.一种基于 木马攻击的深度强化学习交通信号控制中毒攻击方法, 包括以下步骤:
步骤1: 在单交叉口的道路网格上训练强化学习DQN, 即Deep Q Network智能体模型, 在
训练过程中对交通状态数据进 行收集并分析记录车辆出现次数最少的位置, 用于生成异常
交通状态数据;
步骤2: 基于所述步骤1中生成的异常交通状态数据, 当DQN智能体观察到该异常交通状
态数据时, 将异常动作设为此时的输出动作, 从而降低此时的交通路口通行效率; 对于正常
的交通状态数据, DQ N智能体依然采取最优的动作控制交叉口车辆流 通;
步骤3: 对于所述步骤2中的两种情况: ①正常交通状态数据 下采取的最优动作, ②异常
交通状态数据下采取 的异常动作, 通过对奖励函数进行修改实现上述情况; 正常交通状态
数据下采取的最优动作, 此时的奖励为交叉口环 境返回的上一时刻车辆等待时间与当前车
辆等待时间的差值; 而异常交通状态数据下采取 的异常动作, 此时设置较高的奖励值并且
该奖励值会随着训练的进行 逐步衰减;
步骤4: 在异常交通状态数据的生成过程中, 需要考虑原始交叉口包含的车辆数量从而
限制扰动, 并且仅当扰动量小于20%时才将生成的异常交通状态数据输入DQN模型; 此外,
异常交通状态数据仅以9%概 率作为输入数据进行模型的训练;
步骤5: 最后在sumo上对训练完成的中毒模型进行性能测试, 将正常或异常交通状态数
据输入到DQN模 型中, 智能体会根据当前状态选取 交通信号灯的相位, 来控制交叉口的车流
量; 通过对交叉口车辆等待时间的对比和异常交通状态数据下DQN模型采取异常动作的成
功率验证攻击算法的有效性。
2.如权利要求1所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其
特征在于, 所述步骤1 中的单交叉口的道路是十字交叉口的道路; 首先在单 交叉口道路 网格
上训练强化学习智能体模型, 对进入单交叉 口的所有道路上 的交通状态进行离散编码; 将
单交叉口从路段入口到停车线之间长度为l的道路k(k=1,2,3,4)等距离划分为c个离散单
元, 将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵sk(t), 当车辆头部位于某个
离散单元上时, 则车辆位置矩阵sk(t)对应第i(i=1,2, …,c)个位置的值为0.5, 否则值为 ‑
0.5, 公式表示 为:
其中
表示车辆位置矩阵sk(t)第i个位置 的值; 将t时刻四个路口输入端的车辆位
置矩阵sk(t)按行首尾拼接构成st, 公式表示 为:
st=[s1(t),s2(t),s3(t),s4(t)] (2)
再把st作为交通状态数据输入到智能体模型中训练, 智能体输出相应的动作即红绿灯
将要执行的相位, 如南北绿灯或东西绿灯;
在单交叉口道路网格上训练强化学习智能体模型, 对进入交叉口的所有道路上的车辆
进行离散状态编码即将进入交叉口的车辆的数量及其位置进 行记录并作为交通状态数据,
通过对记录的交通状态数据进行分析比对, 找出车辆出现次数最少的车辆位置, 用于生成
异常交通状态数据; 同时被选定为生成异常交通状态数据的车辆位置需要满足以下条件:
不能离交叉 口的停止线太近; 正常行驶的车辆在这些车辆位置上应出现地尽可能少, 公式权 利 要 求 书 1/3 页
2
CN 115426150 A
2表示为:
其中 μ通常被设置为0, 仅当异常 交通状态数据被 添加时才设为1, st′表示异常 交通状态
数据, st表示正常交通状态数据。
3.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其
特征在于, 所述 步骤2的过程如下:
获取t时刻输入模型 的输入值st,其中st代表t时刻从sumo获取的交通路口输入端车辆
数量及其所处位置; 我们定义交通灯的相位作 为动作空间A={a1,a2,a3,a4}, 其中a1为东西
方向绿灯, a2为东西方向左转绿灯, a3为南北方向绿灯, a4为南北方向左转绿灯; 在运行时设
ai的相位的初始时长为m, 黄灯相位时长为n; 在t时刻将当前状态st输入到智能交通灯模型
中, 智能交通灯选择相位ai(i=1,2,3,4), 当ai相位执行完后, 智能交通灯从环境中采集t+1
时刻的状态st+1, 然后选择相位aj(j=1,2,3,4); 若ai≠aj则ai相位执行时间不再延长, 即ai
相位结束, 在ai相位结束后智能交通灯执行黄灯相位, 在黄灯相位结束后, 执行aj相位; 若ai
=aj, 则ai相位执行时间延长m;
在预先设定的交叉口中, 交通信号控制的直行车道数要比左转车道多, 因此, 将南北方
向左转相位a2设为观察到异 常交通状态数据时采取的异 常动作; 在此设置中, DQN模型会根
据正常流量状态数据选择最优动作, 根据异常流量状态数据选择预设的目标动作, 公式描
述为:
4.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其
特征在于, 所述 步骤3的过程如下:
若输入DQN智能体的数据为正常交通状态数据, 则 输出动作为当前时刻的最优相位, 将
t时刻的奖励rt设置为两个相邻相位之间交叉口车辆的等待时间之差, 公式表示 为:
rt=Wt‑1‑Wt (5)
其中Wt‑1,Wt分别为t‑1时刻和t时刻进入交叉口所有车道的车辆等待时间;
若输入DQN智能体的数据为异常交通状态数据, 则 输出动作为异常动作, 南北方向左转
相位a2, 为了确保异 常动作是“最有利”的, 因此需要对被篡改的状态 ‑动作对设置较高的奖
励才能让DQ N模型学习到该异常策略, 奖励函数的设定如下 所示:
其中h代表一个 固定的高奖励值, 表示训练过程中出现贪心策略的概率, 其值随着训练
的进行从1衰减到0; 在此训练过程设置下, DQN模型学习的策略是具有正常流量状态数据的
最优动作和具有异常流 量状态数据的预设目标动作。
5.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法, 其
特征在于, 所述 步骤4的过程如下:
计算扰动状态添加的扰动量 μ权 利 要 求 书 2/3 页
3
CN 115426150 A
3
专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:41上传分享