全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211040566.8 (22)申请日 2022.08.29 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 徐东伟 刘沛文 王达 李呈斌  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 王兵 王幸祥 (51)Int.Cl. H04L 9/40(2022.01) G08G 1/01(2006.01) G08G 1/08(2006.01) G06N 3/08(2006.01) (54)发明名称 基于雅各比显著图的单交叉口信号灯控制 的交通状态对抗扰动生成方法 (57)摘要 本发明公开了一种基于雅各比显著图的单 交叉口信号灯控制的交通状态对抗扰动生成方 法, 基于已由强化学习算法DQN训练好的交通信 号灯控制模型, 利用JSMA攻击的前向导数雅各比 矩阵和显著图制作对抗样本, 将符合限制的对抗 样本输入智能体模型中, 最后在sumo上分析单交 叉口路段的交通状况, 以此检验对抗攻击的效 果。 本发明可以在只修改一小部分原始状态的情 况下, 对最终的信号灯输出动作造成较大的影 响, 以此高效地影 响单交叉口路段的道路交通状 况, 降低模型的性能。 权利要求书2页 说明书6页 附图3页 CN 115426149 A 2022.12.02 CN 115426149 A 1.一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动 生成方法, 包括 以下步骤: 步骤1:在模拟的单交叉口路段对智能体模型进行训练, 并使DQN网络保持训练后的w、 b 参数不变, 模型具有一定的可迁移性; 初始训练完成的智能体在模拟路段应表现出较好的 交通流畅度, 与对抗 攻击施加后形成的流畅度形成对比; 步骤2:在单交叉口的各个路口获取道路状态作为模型的输入, 即每条道路上的车辆数 量与车辆位置, 模 型则会给出相应的动作输出, 即信号灯的相位, 然后基于JS MA攻击算法添 加扰动生成对抗样本; 步骤3:计算扰动的幅度, 若扰动在限制的范围以内, 则将上一步得到的对抗状态输入 模型, 否则输入原 始的状态; 步骤4:扰动输入后, 模型会输出相应的信号灯动作, 来控制单交叉口的道路交通状况, 通过对比经 过交叉路口车辆的等待时间, 可以分析对抗 攻击的效果。 2.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动 生成方法, 其特 征在于, 所述 步骤1的过程如下: 首先在sumo的单交叉口道路上训练强化学习智能体模型; 其次对环境中所有道路上的交通状态做离散化处理: 设道路入口到停车线的距离为l, 将道路上的车道 k(k=1,2,3,4)等距离划分为c个单元; t时刻车道k上的车辆位置表 示为矩 阵sk(t), 当车辆的头部位于某个离散单元上 时, 则sk(t)对应位置i(i=1,2,...,c)的值为 0.5, 否则为 ‑0.5; 将四个路口 的sk(t)按行排列, 即得到要输入到模型中的原 始环境状态st; 对于智能体模型, 输入作为交通状况的环境状态, 将得到特定的交通信号灯动作; 将信 号灯相位作为智能体的动作空间A={a1,a2,a3,a4}, 其中a1为南北方向直行绿灯, a2为南北 方向左转绿灯, a3为东西方向直行绿灯, a4为东西方向左转绿灯; 设置ai的初始绿灯相位持 续时长为m, 黄灯相位时长为n; 将当前状态st输入到模型中, 智能体输出相应的ai(i=1,2, 3,4)作为动作, ai的持续时间结束后, 智能体继续从环境中采集下一时刻的状态st+1, 然后 输出相位aj(j=1,2,3,4); 若ai≠aj, ai的绿灯相位结束后执行n时长的黄灯相位, 之后再执 行aj相位; 否则将ai的执行时间延长m时长; 将强化学习的奖励rt设置为两个动作之间路 口 车辆总等待时间之差, 公式表示如下: rt=Wt‑Wt+1            (1) 其中Wt, Wt+1分别表示t和t+1时刻进入单交叉口所有车辆的等待时间之和; 使用DQN作为 强化学习模 型, 初始化后神经网络的输出即为Q值; 深度神经网络的 隐含层使用Relu作为激 活函数, 输出的神经 元个数设置为与交通信号灯的动作空间大小相等; 公式表示如下: Q=h(wst+b)                 (2) 其中w表示神经网络的权重, st为t时刻网络的输入, b为偏置, h(.)代表Relu激活函数。 DQN的损失函数表示 为: Lt=(yt‑Q(st,ai; θ′))2         (4) 其中γ为学习率, θ和 θ ′分别代表目标网络和估计 网络的参数w、 b以及w ’、 b’; 随着强化 学习智能体的训练, 目标网络的参数根据时间步长进 行更新, 更新方式为每隔时间T从估计权 利 要 求 书 1/2 页 2 CN 115426149 A 2网络中直接复制参数到目标网络中, 公式表示如下: 3.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动 生成方法, 其特 征在于, 所述 步骤2的过程如下: 2.1: 获取原始的环境状态st, 将其输入已经训练好的DQN智能体模型中, 选 择出使Q函数 值最大的动作am(m=1,2,3,4), 即为此时刻最优的信号灯动作, 公式表示如下: 其中θ表示训练好的智能体的参数w、 b, am表示交通信号灯接下来的动作。 2.2: 基于JSMA攻击算法, 沿梯度方向计算神经网络输出对于输入 的雅各比矩阵, 并表 示出基于输入状态st的显著图X, 用来描述输入状态中哪些信息对于输出的影响最大; 对于 输入sti(i=1,2,3, …,80)来说, 显著图X的公式表示如下: 其中 表示神经网络输出对于输入st的前向导数; 选择出使显著图X最大的输入 特征sti, 修改特征使其+1, 得到扰动状态; 当扰动状态对应的扰动动作与最优动作am不同 时, 停止对输入状态sti的修改。 4.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动 生成方法, 其特 征在于, 所述 步骤3的过程如下: 扰动 μt为t时刻扰动 状态st’与原始状态st的差, 评估扰动量是否在限制以内, 以此来决 定是否输入攻击后的扰动状态; 计算t时刻扰动 μt的大小, 公式表示如下: 其中len(.)计算的是车辆状态集合中为0.5的个 数, 当 μ≤δ 时, 将扰动状态st’输入模型 中, 否则将原 始状态st输入到模型中。 5.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动 生成方法, 其特 征在于, 所述 步骤4的过程如下: 将扰动大小满足要求的扰动状态st’输入到模型中, 得到对抗动作, 计算前一时刻与此 时单交叉口路段 车辆等待时间之差, 得到奖励rt。权 利 要 求 书 2/2 页 3 CN 115426149 A 3

PDF文档 专利 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法 第 1 页 专利 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法 第 2 页 专利 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。