全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211040902.9 (22)申请日 2022.08.29 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 徐东伟 王达 李呈斌  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 王兵 王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于策略诱导对多交叉口信号灯协同控制 的中毒攻击方法 (57)摘要 本发明公开了一种基于策略诱导对多交叉 口信号灯协同控制的中毒攻击方法, 采用强化学 习深度Q学习算法(DQN)训练多交叉口信号灯协 同控制模型, 根据策略诱导攻击方法分别训练替 代模型和对手策略, 利用训练过程中经验池的样 本重构交通状态, 使 得目标智能体采 取对手策略 的指定动作, 最终对训练过程中传递给邻接路口 的Q值发生变化导致协 同机制被恶意破坏。 本发 明能够在训练的最后阶段通过对替代模型计算 扰动交通状态并传递给目标智能体, 使得目标智 能体采取攻击者指定的动作, 大幅降低区域多交 叉口的车辆通行效率。 权利要求书3页 说明书7页 附图2页 CN 115426151 A 2022.12.02 CN 115426151 A 1.一种基于策略诱 导对多交叉口信号灯协同控制的中毒攻击方法, 包括以下步骤: 步骤1: 在多交叉口的道路网格上训练强化学习DQN多智能体协同控制模型, 训练完成 后模型的网络参数不再发生变化, 且具有较高的迁移性, 在多交叉 口测试过程中体现出高 流畅度且无拥堵发生; 步骤2: 再将训练数据用于训练替代模型和对手策略, 其中替代模型用于后续生成扰动 交通状态迫使目标智能体采取对手策略, 对手策略被训练为采取当前 交通状态下的次优信 号灯相位; 步骤3: 在训练的最后一个阶段, 从经验池提取一批训练样本, 将 目标智能体下一时刻 的交通状态数据输入到对手策略中生成指定的对手动作, 根据该对手动作, 将交通状态数 据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作; 步骤4: 将上述的扰动状态添加到原始交通状态数据并输入到目标智能体 中, 目标智能 体将输出对手策略生成的对手动作, 此时的目标Q值会因为动作的改变而发生变化, 使得目 标智能体无法学习到最优策略, 最 终在相邻路口Q值传递过程中也会对邻接交叉口的Q值造 成变化导致协同机制被破坏, 最后在sumo上对攻击前后的多交叉口智能体模型进 行流畅度 对比。 2.如权利要求1所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方 法, 其特征在于, 所述步骤1中多交叉 口的道路是十字交叉 口的道路; 首先在多交叉口道路 网格上训练强化学习多智能体协同模型, 对进入多交叉口的所有道路上的车辆进 行离散交 通状态编码; 由于输入的交通状态数据为所有路口的全局状态信息, 因此为了减少 输入数 据的同时保证决策不被影响, 将每个路口的前半部分进行车辆状态的采集; 将多交叉 口从 路段入口到状态采集 终点之间长度为l的道路k等距离划分为等间距的c个离散单元, 其中k =1,2,3,4; 将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵smk(t), 其中m= 1,2,3,4; 当车辆头部位于某个离散单元上时, 则车辆 位置矩阵smk(t)对应第i个位置的值为 1, 否则值 为0, 其中i =1,2,…,c; 公式表示 为: 其中 表示车辆位置矩阵smk(t)第i个位置的值; 将t时刻四个交叉口输入端的车 辆位置矩阵smk(t)按行首尾拼接构成st, 公式表示 为: st=[s11(t),s12(t),......,s43(t),s44(t)]           (2) 再把st作为t时刻的全局交通状态输入到智能体模型中训练, 智能体模型输 出相应的动 作即红绿灯将要执 行的相位。 3.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方 法, 其特征在于, 定义交通灯的相位作为动作空间A={a1,a2, a3, a4}, 其中a1为东西方向绿 灯, a2为东西方向左转绿灯, a3为南北方向绿灯, a4为南北方向左转绿灯; 在 运行时设an的相 位的初始时长为M, 黄灯相位时长为N; 在t时刻将全局交通状态st输入到智能交通灯模型 中, 智能交通灯选择相位an, 其中n=1, 2, 3, 4; 当an相位执行完后, 智能交通灯从环境中采集 t+1时刻的状态st+1, 然后选择相位 an’, 若an≠an’,则an相位执行 时间不再延长, 即an相位结 束, 在an相位结束后智能交通灯执行黄灯相位, 在黄灯相位结束后, 执行an’相位; 若an=权 利 要 求 书 1/3 页 2 CN 115426151 A 2an’, 则an相位执行时间延长M; 将第m个 交叉口的奖励rtm设置为每个 交叉口的两个连续动作 之间路口车辆等待时间之差, 公式表示 为: 其中 Wtm分别表示第m个交叉口t ‑1时刻和t时刻进入该交叉口所有车道的车辆总 体等待时间, 根据执 行的动作再按照奖励值对动作进行评判, 从而不断更新网络的参数; 所使用的强化学习模型为Deep  Q Network, 简化为DQN, 以一个交叉口的智能体模型为 例进行说明; 用一个深度神经网络作为Q值网络, 初始化网络参数, 网络的输出就是Q值,隐 含层采用Relu非线性激活函数, 其中输出层的神经元个数与每个交叉口的动作空间大小相 等; 公式表示 为: Q=h(wst+b)                    (4) 其中w代表神经网络的权重, st为网络的输入, b为偏置, h(.)表示Relu激活函数; DQN的 损失函数为: Lt=(yt‑Q(st,an; θ′))2              (6) 其中 代表第m个交叉口t时刻的目标值, an,an′∈A表示智能体输出的动作即红绿灯相 位,γ为学习率, wm,m′表示交叉 口m和相邻交叉 口m’的权重系 数, θm′和θm′分别代表第m个交 叉口和相邻交叉口m ’的神经网络参数; DQN的估计网络的参数w和b是随着时间步长逐步更 新的, 目标网络的参数w ’和b’的更新是每隔时间T从估计网络直接复制网络的参数, 公式表 示为: 所述步骤2的具体过程如下: 将所述步骤1中正常训练的智能体策略记为π, 确定其中一个要攻击的目标智能体, 为 了多交叉口信号灯协同控制系统受到异常交通状态的影响, 需要训练攻击者指 定的对手策 略, 记为πadv; 通过对目标交叉口的智能体选择次优动作进行对手策 略的训练, 并将对手策 略用于指定目标智能体要采取 的异常动作, 从而延迟区域多交叉 口网络的车辆流通时间; 此外, 采用所述步骤1 中的训练数据训练该目标智能体的替代模型, 攻击者通过该替代模型 计算扰动交通状态使得目标智能体采取对手策略的指定行为。 4.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方 法, 其特征在于, 所述 步骤3的具体过程如下: 对多交叉口智能体进行训练时, 仅在最后一轮训练过程中让目标智能体采取对手策略 指定的异常动作破坏多智能体的协同, 而在其 余轮次按照正常训练过程进行; 当智能体的训练进行到最后一个阶段时, 此时目标智能体与替代模型观察到交通状态权 利 要 求 书 2/3 页 3 CN 115426151 A 3

PDF文档 专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法 第 1 页 专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法 第 2 页 专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。