专利基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211040902.9 (22)申请日 2022.08.29 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人徐东伟　王达　李呈斌　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师王兵　王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法 (57)摘要本发明公开了一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法，采用强化学习深度Q学习算法(DQN)训练多交叉口信号灯协同控制模型，根据策略诱导攻击方法分别训练替代模型和对手策略，利用训练过程中经验池的样本重构交通状态，使得目标智能体采取对手策略的指定动作，最终对训练过程中传递给邻接路口的Q值发生变化导致协同机制被恶意破坏。本发明能够在训练的最后阶段通过对替代模型计算扰动交通状态并传递给目标智能体，使得目标智能体采取攻击者指定的动作，大幅降低区域多交叉口的车辆通行效率。权利要求书3页说明书7页附图2页 CN 115426151 A 2022.12.02 CN 115426151 A 1.一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法，包括以下步骤：步骤1：在多交叉口的道路网格上训练强化学习DQN多智能体协同控制模型，训练完成后模型的网络参数不再发生变化，且具有较高的迁移性，在多交叉口测试过程中体现出高流畅度且无拥堵发生；步骤2：再将训练数据用于训练替代模型和对手策略，其中替代模型用于后续生成扰动交通状态迫使目标智能体采取对手策略，对手策略被训练为采取当前交通状态下的次优信号灯相位；步骤3：在训练的最后一个阶段，从经验池提取一批训练样本，将目标智能体下一时刻的交通状态数据输入到对手策略中生成指定的对手动作，根据该对手动作，将交通状态数据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作；步骤4：将上述的扰动状态添加到原始交通状态数据并输入到目标智能体中，目标智能体将输出对手策略生成的对手动作，此时的目标Q值会因为动作的改变而发生变化，使得目标智能体无法学习到最优策略，最终在相邻路口Q值传递过程中也会对邻接交叉口的Q值造成变化导致协同机制被破坏，最后在sumo上对攻击前后的多交叉口智能体模型进行流畅度对比。 2.如权利要求1所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法，其特征在于，所述步骤1中多交叉口的道路是十字交叉口的道路；首先在多交叉口道路网格上训练强化学习多智能体协同模型，对进入多交叉口的所有道路上的车辆进行离散交通状态编码；由于输入的交通状态数据为所有路口的全局状态信息，因此为了减少输入数据的同时保证决策不被影响，将每个路口的前半部分进行车辆状态的采集；将多交叉口从路段入口到状态采集终点之间长度为l的道路k等距离划分为等间距的c个离散单元，其中k ＝1,2,3,4；将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵smk(t)，其中m＝ 1,2,3,4；当车辆头部位于某个离散单元上时，则车辆位置矩阵smk(t)对应第i个位置的值为 1，否则值为0，其中i ＝1,2,…,c；公式表示为：其中表示车辆位置矩阵smk(t)第i个位置的值；将t时刻四个交叉口输入端的车辆位置矩阵smk(t)按行首尾拼接构成st，公式表示为： st＝[s11(t),s12(t),......,s43(t),s44(t)] (2) 再把st作为t时刻的全局交通状态输入到智能体模型中训练，智能体模型输出相应的动作即红绿灯将要执行的相位。 3.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法，其特征在于，定义交通灯的相位作为动作空间A＝{a1,a2， a3， a4}，其中a1为东西方向绿灯， a2为东西方向左转绿灯， a3为南北方向绿灯， a4为南北方向左转绿灯；在运行时设an的相位的初始时长为M，黄灯相位时长为N；在t时刻将全局交通状态st输入到智能交通灯模型中，智能交通灯选择相位an，其中n＝1， 2， 3， 4；当an相位执行完后，智能交通灯从环境中采集 t+1时刻的状态st+1，然后选择相位 an’，若an≠an’,则an相位执行时间不再延长，即an相位结束，在an相位结束后智能交通灯执行黄灯相位，在黄灯相位结束后，执行an’相位；若an＝权　利　要　求　书 1/3 页 2 CN 115426151 A 2an’，则an相位执行时间延长M；将第m个交叉口的奖励rtm设置为每个交叉口的两个连续动作之间路口车辆等待时间之差，公式表示为：其中 Wtm分别表示第m个交叉口t ‑1时刻和t时刻进入该交叉口所有车道的车辆总体等待时间，根据执行的动作再按照奖励值对动作进行评判，从而不断更新网络的参数；所使用的强化学习模型为Deep Q Network，简化为DQN，以一个交叉口的智能体模型为例进行说明；用一个深度神经网络作为Q值网络，初始化网络参数，网络的输出就是Q值,隐含层采用Relu非线性激活函数，其中输出层的神经元个数与每个交叉口的动作空间大小相等；公式表示为： Q＝h(wst+b) (4) 其中w代表神经网络的权重， st为网络的输入， b为偏置， h(.)表示Relu激活函数； DQN的损失函数为： Lt＝(yt‑Q(st,an； θ′))2 (6) 其中代表第m个交叉口t时刻的目标值， an,an′∈A表示智能体输出的动作即红绿灯相位,γ为学习率， wm,m′表示交叉口m和相邻交叉口m’的权重系数， θm′和θm′分别代表第m个交叉口和相邻交叉口m ’的神经网络参数； DQN的估计网络的参数w和b是随着时间步长逐步更新的，目标网络的参数w ’和b’的更新是每隔时间T从估计网络直接复制网络的参数，公式表示为：所述步骤2的具体过程如下：将所述步骤1中正常训练的智能体策略记为π，确定其中一个要攻击的目标智能体，为了多交叉口信号灯协同控制系统受到异常交通状态的影响，需要训练攻击者指定的对手策略，记为πadv；通过对目标交叉口的智能体选择次优动作进行对手策略的训练，并将对手策略用于指定目标智能体要采取的异常动作，从而延迟区域多交叉口网络的车辆流通时间；此外，采用所述步骤1 中的训练数据训练该目标智能体的替代模型，攻击者通过该替代模型计算扰动交通状态使得目标智能体采取对手策略的指定行为。 4.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法，其特征在于，所述步骤3的具体过程如下：对多交叉口智能体进行训练时，仅在最后一轮训练过程中让目标智能体采取对手策略指定的异常动作破坏多智能体的协同，而在其余轮次按照正常训练过程进行；当智能体的训练进行到最后一个阶段时，此时目标智能体与替代模型观察到交通状态权　利　要　求　书 2/3 页 3 CN 115426151 A 3

专利 基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法

专利基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法