专利基于木马攻击的深度强化学习交通信号控制中毒攻击方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211040901.4 (22)申请日 2022.08.29 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人徐东伟　王达　李呈斌　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师王兵　王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于木马攻击的深度强化学习交通信号控制中毒攻击方法 (57)摘要本发明公开了一种基于木马攻击的深度强化学习交通信号控制中毒攻击方法，根据已有的深度强化学习DQN算法并加入木马攻击对交通路口信号灯控制模型进行训练，通过修改指定位置的车辆信息生成异常交通状态数据，再设定异常交通状态数据下模型采取的异常动作，最后对该异常状态下采取的异常动作设定较高的奖励值实现深度强化学习DQN算法的中毒攻击。本发明最后在模型测试过程中增加路口的车辆等待时间，大幅降低模型的性能，大大降低交通路口的车辆流通效率。权利要求书3页说明书8页附图3页 CN 115426150 A 2022.12.02 CN 115426150 A 1.一种基于木马攻击的深度强化学习交通信号控制中毒攻击方法，包括以下步骤：步骤1：在单交叉口的道路网格上训练强化学习DQN，即Deep Q Network智能体模型，在训练过程中对交通状态数据进行收集并分析记录车辆出现次数最少的位置，用于生成异常交通状态数据；步骤2：基于所述步骤1中生成的异常交通状态数据，当DQN智能体观察到该异常交通状态数据时，将异常动作设为此时的输出动作，从而降低此时的交通路口通行效率；对于正常的交通状态数据， DQ N智能体依然采取最优的动作控制交叉口车辆流通；步骤3：对于所述步骤2中的两种情况： ①正常交通状态数据下采取的最优动作， ②异常交通状态数据下采取的异常动作，通过对奖励函数进行修改实现上述情况；正常交通状态数据下采取的最优动作，此时的奖励为交叉口环境返回的上一时刻车辆等待时间与当前车辆等待时间的差值；而异常交通状态数据下采取的异常动作，此时设置较高的奖励值并且该奖励值会随着训练的进行逐步衰减；步骤4：在异常交通状态数据的生成过程中，需要考虑原始交叉口包含的车辆数量从而限制扰动，并且仅当扰动量小于20％时才将生成的异常交通状态数据输入DQN模型；此外，异常交通状态数据仅以9％概率作为输入数据进行模型的训练；步骤5：最后在sumo上对训练完成的中毒模型进行性能测试，将正常或异常交通状态数据输入到DQN模型中，智能体会根据当前状态选取交通信号灯的相位，来控制交叉口的车流量；通过对交叉口车辆等待时间的对比和异常交通状态数据下DQN模型采取异常动作的成功率验证攻击算法的有效性。 2.如权利要求1所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法，其特征在于，所述步骤1 中的单交叉口的道路是十字交叉口的道路；首先在单交叉口道路网格上训练强化学习智能体模型，对进入单交叉口的所有道路上的交通状态进行离散编码；将单交叉口从路段入口到停车线之间长度为l的道路k(k＝1,2,3,4)等距离划分为c个离散单元，将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵sk(t)，当车辆头部位于某个离散单元上时，则车辆位置矩阵sk(t)对应第i(i＝1,2, …,c)个位置的值为0.5，否则值为 ‑ 0.5，公式表示为：其中表示车辆位置矩阵sk(t)第i个位置的值；将t时刻四个路口输入端的车辆位置矩阵sk(t)按行首尾拼接构成st，公式表示为： st＝[s1(t),s2(t),s3(t),s4(t)] (2) 再把st作为交通状态数据输入到智能体模型中训练，智能体输出相应的动作即红绿灯将要执行的相位，如南北绿灯或东西绿灯；在单交叉口道路网格上训练强化学习智能体模型，对进入交叉口的所有道路上的车辆进行离散状态编码即将进入交叉口的车辆的数量及其位置进行记录并作为交通状态数据，通过对记录的交通状态数据进行分析比对，找出车辆出现次数最少的车辆位置，用于生成异常交通状态数据；同时被选定为生成异常交通状态数据的车辆位置需要满足以下条件：不能离交叉口的停止线太近；正常行驶的车辆在这些车辆位置上应出现地尽可能少，公式权　利　要　求　书 1/3 页 2 CN 115426150 A 2表示为：其中 μ通常被设置为0，仅当异常交通状态数据被添加时才设为1， st′表示异常交通状态数据， st表示正常交通状态数据。 3.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法，其特征在于，所述步骤2的过程如下：获取t时刻输入模型的输入值st,其中st代表t时刻从sumo获取的交通路口输入端车辆数量及其所处位置；我们定义交通灯的相位作为动作空间A＝{a1,a2,a3,a4}，其中a1为东西方向绿灯， a2为东西方向左转绿灯， a3为南北方向绿灯， a4为南北方向左转绿灯；在运行时设 ai的相位的初始时长为m，黄灯相位时长为n；在t时刻将当前状态st输入到智能交通灯模型中，智能交通灯选择相位ai(i＝1,2,3,4)，当ai相位执行完后，智能交通灯从环境中采集t+1 时刻的状态st+1，然后选择相位aj(j＝1,2,3,4)；若ai≠aj则ai相位执行时间不再延长，即ai 相位结束，在ai相位结束后智能交通灯执行黄灯相位，在黄灯相位结束后，执行aj相位；若ai ＝aj，则ai相位执行时间延长m；在预先设定的交叉口中，交通信号控制的直行车道数要比左转车道多，因此，将南北方向左转相位a2设为观察到异常交通状态数据时采取的异常动作；在此设置中， DQN模型会根据正常流量状态数据选择最优动作，根据异常流量状态数据选择预设的目标动作，公式描述为： 4.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法，其特征在于，所述步骤3的过程如下：若输入DQN智能体的数据为正常交通状态数据，则输出动作为当前时刻的最优相位，将 t时刻的奖励rt设置为两个相邻相位之间交叉口车辆的等待时间之差，公式表示为： rt＝Wt‑1‑Wt (5) 其中Wt‑1,Wt分别为t‑1时刻和t时刻进入交叉口所有车道的车辆等待时间；若输入DQN智能体的数据为异常交通状态数据，则输出动作为异常动作，南北方向左转相位a2，为了确保异常动作是“最有利”的，因此需要对被篡改的状态 ‑动作对设置较高的奖励才能让DQ N模型学习到该异常策略，奖励函数的设定如下所示：其中h代表一个固定的高奖励值，表示训练过程中出现贪心策略的概率，其值随着训练的进行从1衰减到0；在此训练过程设置下， DQN模型学习的策略是具有正常流量状态数据的最优动作和具有异常流量状态数据的预设目标动作。 5.如权利要求2所述的基于木马攻击的深度强化学习交通信号控制中毒攻击方法，其特征在于，所述步骤4的过程如下：计算扰动状态添加的扰动量 μ权　利　要　求　书 2/3 页 3 CN 115426150 A 3

专利 基于木马攻击的深度强化学习交通信号控制中毒攻击方法

专利基于木马攻击的深度强化学习交通信号控制中毒攻击方法