(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211040902.9
(22)申请日 2022.08.29
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 徐东伟 王达 李呈斌
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 王兵 王幸祥
(51)Int.Cl.
H04L 9/40(2022.01)
G08G 1/01(2006.01)
G08G 1/08(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于策略诱导对多交叉口信号灯协同控制
的中毒攻击方法
(57)摘要
本发明公开了一种基于策略诱导对多交叉
口信号灯协同控制的中毒攻击方法, 采用强化学
习深度Q学习算法(DQN)训练多交叉口信号灯协
同控制模型, 根据策略诱导攻击方法分别训练替
代模型和对手策略, 利用训练过程中经验池的样
本重构交通状态, 使 得目标智能体采 取对手策略
的指定动作, 最终对训练过程中传递给邻接路口
的Q值发生变化导致协 同机制被恶意破坏。 本发
明能够在训练的最后阶段通过对替代模型计算
扰动交通状态并传递给目标智能体, 使得目标智
能体采取攻击者指定的动作, 大幅降低区域多交
叉口的车辆通行效率。
权利要求书3页 说明书7页 附图2页
CN 115426151 A
2022.12.02
CN 115426151 A
1.一种基于策略诱 导对多交叉口信号灯协同控制的中毒攻击方法, 包括以下步骤:
步骤1: 在多交叉口的道路网格上训练强化学习DQN多智能体协同控制模型, 训练完成
后模型的网络参数不再发生变化, 且具有较高的迁移性, 在多交叉 口测试过程中体现出高
流畅度且无拥堵发生;
步骤2: 再将训练数据用于训练替代模型和对手策略, 其中替代模型用于后续生成扰动
交通状态迫使目标智能体采取对手策略, 对手策略被训练为采取当前 交通状态下的次优信
号灯相位;
步骤3: 在训练的最后一个阶段, 从经验池提取一批训练样本, 将 目标智能体下一时刻
的交通状态数据输入到对手策略中生成指定的对手动作, 根据该对手动作, 将交通状态数
据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作;
步骤4: 将上述的扰动状态添加到原始交通状态数据并输入到目标智能体 中, 目标智能
体将输出对手策略生成的对手动作, 此时的目标Q值会因为动作的改变而发生变化, 使得目
标智能体无法学习到最优策略, 最 终在相邻路口Q值传递过程中也会对邻接交叉口的Q值造
成变化导致协同机制被破坏, 最后在sumo上对攻击前后的多交叉口智能体模型进 行流畅度
对比。
2.如权利要求1所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方
法, 其特征在于, 所述步骤1中多交叉 口的道路是十字交叉 口的道路; 首先在多交叉口道路
网格上训练强化学习多智能体协同模型, 对进入多交叉口的所有道路上的车辆进 行离散交
通状态编码; 由于输入的交通状态数据为所有路口的全局状态信息, 因此为了减少 输入数
据的同时保证决策不被影响, 将每个路口的前半部分进行车辆状态的采集; 将多交叉 口从
路段入口到状态采集 终点之间长度为l的道路k等距离划分为等间距的c个离散单元, 其中k
=1,2,3,4; 将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵smk(t), 其中m=
1,2,3,4; 当车辆头部位于某个离散单元上时, 则车辆 位置矩阵smk(t)对应第i个位置的值为
1, 否则值 为0, 其中i =1,2,…,c; 公式表示 为:
其中
表示车辆位置矩阵smk(t)第i个位置的值; 将t时刻四个交叉口输入端的车
辆位置矩阵smk(t)按行首尾拼接构成st, 公式表示 为:
st=[s11(t),s12(t),......,s43(t),s44(t)] (2)
再把st作为t时刻的全局交通状态输入到智能体模型中训练, 智能体模型输 出相应的动
作即红绿灯将要执 行的相位。
3.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方
法, 其特征在于, 定义交通灯的相位作为动作空间A={a1,a2, a3, a4}, 其中a1为东西方向绿
灯, a2为东西方向左转绿灯, a3为南北方向绿灯, a4为南北方向左转绿灯; 在 运行时设an的相
位的初始时长为M, 黄灯相位时长为N; 在t时刻将全局交通状态st输入到智能交通灯模型
中, 智能交通灯选择相位an, 其中n=1, 2, 3, 4; 当an相位执行完后, 智能交通灯从环境中采集
t+1时刻的状态st+1, 然后选择相位 an’, 若an≠an’,则an相位执行 时间不再延长, 即an相位结
束, 在an相位结束后智能交通灯执行黄灯相位, 在黄灯相位结束后, 执行an’相位; 若an=权 利 要 求 书 1/3 页
2
CN 115426151 A
2an’, 则an相位执行时间延长M; 将第m个 交叉口的奖励rtm设置为每个 交叉口的两个连续动作
之间路口车辆等待时间之差, 公式表示 为:
其中
Wtm分别表示第m个交叉口t ‑1时刻和t时刻进入该交叉口所有车道的车辆总
体等待时间, 根据执 行的动作再按照奖励值对动作进行评判, 从而不断更新网络的参数;
所使用的强化学习模型为Deep Q Network, 简化为DQN, 以一个交叉口的智能体模型为
例进行说明; 用一个深度神经网络作为Q值网络, 初始化网络参数, 网络的输出就是Q值,隐
含层采用Relu非线性激活函数, 其中输出层的神经元个数与每个交叉口的动作空间大小相
等; 公式表示 为:
Q=h(wst+b) (4)
其中w代表神经网络的权重, st为网络的输入, b为偏置, h(.)表示Relu激活函数; DQN的
损失函数为:
Lt=(yt‑Q(st,an; θ′))2 (6)
其中
代表第m个交叉口t时刻的目标值, an,an′∈A表示智能体输出的动作即红绿灯相
位,γ为学习率, wm,m′表示交叉 口m和相邻交叉 口m’的权重系 数, θm′和θm′分别代表第m个交
叉口和相邻交叉口m ’的神经网络参数; DQN的估计网络的参数w和b是随着时间步长逐步更
新的, 目标网络的参数w ’和b’的更新是每隔时间T从估计网络直接复制网络的参数, 公式表
示为:
所述步骤2的具体过程如下:
将所述步骤1中正常训练的智能体策略记为π, 确定其中一个要攻击的目标智能体, 为
了多交叉口信号灯协同控制系统受到异常交通状态的影响, 需要训练攻击者指 定的对手策
略, 记为πadv; 通过对目标交叉口的智能体选择次优动作进行对手策 略的训练, 并将对手策
略用于指定目标智能体要采取 的异常动作, 从而延迟区域多交叉 口网络的车辆流通时间;
此外, 采用所述步骤1 中的训练数据训练该目标智能体的替代模型, 攻击者通过该替代模型
计算扰动交通状态使得目标智能体采取对手策略的指定行为。
4.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方
法, 其特征在于, 所述 步骤3的具体过程如下:
对多交叉口智能体进行训练时, 仅在最后一轮训练过程中让目标智能体采取对手策略
指定的异常动作破坏多智能体的协同, 而在其 余轮次按照正常训练过程进行;
当智能体的训练进行到最后一个阶段时, 此时目标智能体与替代模型观察到交通状态权 利 要 求 书 2/3 页
3
CN 115426151 A
3
专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:41上传分享