专利基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211040566.8 (22)申请日 2022.08.29 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人徐东伟　刘沛文　王达　李呈斌　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师王兵　王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/08(2006.01) (54)发明名称基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法 (57)摘要本发明公开了一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，基于已由强化学习算法DQN训练好的交通信号灯控制模型，利用JSMA攻击的前向导数雅各比矩阵和显著图制作对抗样本，将符合限制的对抗样本输入智能体模型中，最后在sumo上分析单交叉口路段的交通状况，以此检验对抗攻击的效果。本发明可以在只修改一小部分原始状态的情况下，对最终的信号灯输出动作造成较大的影响，以此高效地影响单交叉口路段的道路交通状况，降低模型的性能。权利要求书2页说明书6页附图3页 CN 115426149 A 2022.12.02 CN 115426149 A 1.一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，包括以下步骤：步骤1:在模拟的单交叉口路段对智能体模型进行训练，并使DQN网络保持训练后的w、 b 参数不变，模型具有一定的可迁移性；初始训练完成的智能体在模拟路段应表现出较好的交通流畅度，与对抗攻击施加后形成的流畅度形成对比；步骤2:在单交叉口的各个路口获取道路状态作为模型的输入，即每条道路上的车辆数量与车辆位置，模型则会给出相应的动作输出，即信号灯的相位，然后基于JS MA攻击算法添加扰动生成对抗样本；步骤3:计算扰动的幅度，若扰动在限制的范围以内，则将上一步得到的对抗状态输入模型，否则输入原始的状态；步骤4:扰动输入后，模型会输出相应的信号灯动作，来控制单交叉口的道路交通状况，通过对比经过交叉路口车辆的等待时间，可以分析对抗攻击的效果。 2.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，其特征在于，所述步骤1的过程如下：首先在sumo的单交叉口道路上训练强化学习智能体模型；其次对环境中所有道路上的交通状态做离散化处理：设道路入口到停车线的距离为l，将道路上的车道 k(k＝1,2,3,4)等距离划分为c个单元； t时刻车道k上的车辆位置表示为矩阵sk(t)，当车辆的头部位于某个离散单元上时，则sk(t)对应位置i(i＝1,2,...,c)的值为 0.5，否则为 ‑0.5；将四个路口的sk(t)按行排列，即得到要输入到模型中的原始环境状态st；对于智能体模型，输入作为交通状况的环境状态，将得到特定的交通信号灯动作；将信号灯相位作为智能体的动作空间A＝{a1,a2,a3,a4}，其中a1为南北方向直行绿灯， a2为南北方向左转绿灯， a3为东西方向直行绿灯， a4为东西方向左转绿灯；设置ai的初始绿灯相位持续时长为m，黄灯相位时长为n；将当前状态st输入到模型中，智能体输出相应的ai(i＝1,2, 3,4)作为动作， ai的持续时间结束后，智能体继续从环境中采集下一时刻的状态st+1，然后输出相位aj(j＝1,2,3,4)；若ai≠aj， ai的绿灯相位结束后执行n时长的黄灯相位，之后再执行aj相位；否则将ai的执行时间延长m时长；将强化学习的奖励rt设置为两个动作之间路口车辆总等待时间之差，公式表示如下： rt＝Wt‑Wt+1 (1) 其中Wt， Wt+1分别表示t和t+1时刻进入单交叉口所有车辆的等待时间之和；使用DQN作为强化学习模型，初始化后神经网络的输出即为Q值；深度神经网络的隐含层使用Relu作为激活函数，输出的神经元个数设置为与交通信号灯的动作空间大小相等；公式表示如下： Q＝h(wst+b) (2) 其中w表示神经网络的权重， st为t时刻网络的输入， b为偏置， h(.)代表Relu激活函数。 DQN的损失函数表示为： Lt＝(yt‑Q(st,ai； θ′))2 (4) 其中γ为学习率， θ和 θ ′分别代表目标网络和估计网络的参数w、 b以及w ’、 b’；随着强化学习智能体的训练，目标网络的参数根据时间步长进行更新，更新方式为每隔时间T从估计权　利　要　求　书 1/2 页 2 CN 115426149 A 2网络中直接复制参数到目标网络中，公式表示如下： 3.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，其特征在于，所述步骤2的过程如下： 2.1：获取原始的环境状态st，将其输入已经训练好的DQN智能体模型中，选择出使Q函数值最大的动作am(m＝1,2,3,4)，即为此时刻最优的信号灯动作，公式表示如下：其中θ表示训练好的智能体的参数w、 b， am表示交通信号灯接下来的动作。 2.2：基于JSMA攻击算法，沿梯度方向计算神经网络输出对于输入的雅各比矩阵，并表示出基于输入状态st的显著图X，用来描述输入状态中哪些信息对于输出的影响最大；对于输入sti(i＝1,2,3, …,80)来说，显著图X的公式表示如下：其中表示神经网络输出对于输入st的前向导数；选择出使显著图X最大的输入特征sti，修改特征使其+1，得到扰动状态；当扰动状态对应的扰动动作与最优动作am不同时，停止对输入状态sti的修改。 4.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，其特征在于，所述步骤3的过程如下：扰动 μt为t时刻扰动状态st’与原始状态st的差，评估扰动量是否在限制以内，以此来决定是否输入攻击后的扰动状态；计算t时刻扰动 μt的大小，公式表示如下：其中len(.)计算的是车辆状态集合中为0.5的个数，当 μ≤δ 时，将扰动状态st’输入模型中，否则将原始状态st输入到模型中。 5.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法，其特征在于，所述步骤4的过程如下：将扰动大小满足要求的扰动状态st’输入到模型中，得到对抗动作，计算前一时刻与此时单交叉口路段车辆等待时间之差，得到奖励rt。权　利　要　求　书 2/2 页 3 CN 115426149 A 3

专利 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法

专利基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法