(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211041001.1
(22)申请日 2022.08.29
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 徐东伟 王达 李呈斌
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 王兵 王幸祥
(51)Int.Cl.
H04L 9/40(2022.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
G08G 1/01(2006.01)
(54)发明名称
基于强扰动检测与模型再训练的深度强化
学习交通信号控制中毒防御方法
(57)摘要
本发明公开了一种基于强扰动检测与模型
再训练的深度强化学习交通信号控制中毒防御
方法, 该方法首先利用强扰动获取输入数据中的
后门数据, 再对后门数据进行识别进一步确定异
常数据点, 最后可通过数据层面的防御将测试过
程中异常数据的异常数据点进行去除, 或是通过
模型层面的防御将原始训练数据与反向触发器
重构训练集对中毒模型进行忘却学习使得中毒
模型忘却触发器引发的异常行为。 本发明通过检
测方法首先将异常交通状态数据筛选出来, 只需
在后门数据子集中寻找 “反向触发器 ”而无需对
所有输入数据进行计算, 最后通过两个层面的防
御方法对模 型层面和数据层面进行防御, 以此消
除后门触发器带来的异常行为, 提高交叉路口的
车辆通行效率。
权利要求书3页 说明书7页 附图3页
CN 115361224 A
2022.11.18
CN 115361224 A
1.一种基于强扰动检测与模型再训练 的深度强化学习交通信号控制中毒防御 方法, 包
括以下步骤:
步骤1: 对于训练好的模型, 再次将训练数据作为输入 并加入大量的随机噪声生成扰动
状态数据, 将这些扰动状态数据输入到模型中观察预测结果的概 率值变化并计算信息熵;
步骤2: 基于每个扰动状态输入的熵计算所有输入的熵值之和, 熵值之和的大小反应了
输入数据中包含木马触发器的概率; 再将每个交通状态数据的信息熵分布进行拟合, 找出
最适合的概率分布并设定检测阈值, 由此将交通状态数据划分为后门数据和干净数据两个
子集;
步骤3: 通过基于梯度的计算方法对每个后门数据中的数据点进行降序删除, 直至 中毒
模型输出 的动作发生变化, 记录下此时删除的异常点并记为 “反向触发器 ”; 最后所有后门
数据对应的 “反向触发器 ”再采用绝对中位差的异常点检测算法找出最 终唯一的“反向触发
器”, 所述反向触发器就是导 致中毒模型输出 结果异常的原 始触发器;
步骤4:
针对数据层面的防御: 在模型测试过程中检测 交通状态数据是否包含反向触发器, 一
旦测试数据中检测到反向触发器就对该 数据中的反向触发器进行删除再输入到模型中;
针对模型层面防御: 将原始训练数据的10%取出与反向触发器重构训练集, 并修改这
些训练数据的标签为原始标签, 原始标签在识别过程中能够被发现, 将重构的训练集输入
到中毒模型中进行忘却学习, 再进行微调最终得到防御模型。
2.如权利要求1所述的基于强扰动检测与模型再训练 的深度强化学习交通信号控制中
毒防御方法, 其特征在于, 所述步骤1中交通状态的实验对象是十字交叉路口, 首先对原始
交通状态数据添加大量的随机噪声生成N个扰动交通状态数据
并使用信
息熵来表示给定交通状态数据x对应的所有扰动输入的预测类的随机性, 信息熵的计算公
式为:
其中, yi是扰动交通状态数据预测结果属于i类的概 率, M是所有预测类别的个数;
将交通状态数据x和所有N个扰动交通状态数据都作为深度强化学习交通信号控制模
型的输入, 基于每个扰动交通状态数据xP n的熵Hn, 所有N个扰动交通状态数据
的熵和为:
通过观察它们的预测类别和熵值的大小来确定交通状态数据x中是否包含木马触发
器, 并且Hsum越高, 交通状态数据x中含有木马触发器的概率越低; 进一步对Hsum进行规范
化:
其中, H是交通状态数据x的信息熵, 用于判断交通状态数据x是否包 含木马触发器。权 利 要 求 书 1/3 页
2
CN 115361224 A
23.如权利要求2所述的基于强扰动检测与模型再训练 的深度强化学习交通信号控制中
毒防御方法, 其特 征在于, 所述 步骤2的过程如下:
根据步骤1中得到的交通状态数据x的信息熵H, 将所有输入数据进行汇总得到信息熵
的分布情况; 并且可以使用干净的交通状态数据x估计熵的分布情况, 通过实验 可以发现这
种分布是正态分布; 再计算得到 干净数据的熵分布的平均值和标准差;
首先确定检测过程的错误拒绝率(FRR), 例如1%, 然后计算正态分布的百分位数并将
该百分位作为检测边界; 也就是说, 对于干净的交通状态数据的熵分布, 该检测边界在1%
FRR范围内; 此外, 错误接收率用于记录含有木马触发器的交通状态数据的熵大于该检测边
界的概率; 最后, 通过设置检测边界将所有的交通状态数据划分为后门数据和干净数据两
个子集。
4.如权利要求2所述的基于强扰动检测与模型再训练 的深度强化学习交通信号控制中
毒防御方法, 其特 征在于, 所述 步骤3的过程如下:
为了找出后门数据中的触发器位置, 对后门数据中所有交通状态数据逐个采用基于梯
度的方法得到交通状态数据中每个状态位对预测结果的影响是正向的还是逆向的, 每个状
态位的梯度值大小记为:
η={ η1,……, ηj} (4)
其中, j代表交通状态数据中的车辆状态位的个数, ηj代表第j个状态位的梯度值大小;
模型的预测过程表示 为:
ak=F(x) (5)
其中F代表模型的预测过程, ak代表模型的预测结果, k为模型可选的交通信号灯相位的
个数; 对于每一个后门子集中的数据, 将梯度值绘制为热力图的形式更清晰地反映对预测
结果有重要影响的数据;
由于输入的交通状态数据 是记录路口当前位置是否有车辆, 若该位置有车则值为1, 否
则为0, 公式表示 为:
x={x1,……,xj} (6)
依次观察后门数据子集对应的热力图, 按照降序的顺序将交通状态数据中相应的数据
由1改为0, 即, 根据原始交通状态数据的梯度值判断交通状态数据中的异常点位置, 并将其
删去, 此时的交通状态数据变为:
x‑d={x1,…xd‑1,0,xd+1,…,xj} (8)
其中x‑d代表原始交通状态数据x中的第d个状态位信息被去除, xd的值由1变为0; 将该
数据输入到模型中得到新的预测结果ak′=F(x‑d), 通过与原始交通状态数据x的预测结果
ak比较, 若ak′=ak, 则重复上述 过程; 若ak′≠ak, 则将删去的状态位信息进行记录; 最终所有
后门数据子集可以被记录为异常数据点集合D={D1,…,Dm}, D中包含了所有后门数据中被
删去的状态位信息, m为后门数据子集的个数;
通过基于绝对中位差的异常点检测算法从集合D中找出唯一的 “反向触发器 ”, 它能够
提供分布离散度的可靠度量; 首先计算出D中的数据个数与中位数之 间的偏差, 用公式表 示
为权 利 要 求 书 2/3 页
3
CN 115361224 A
3
专利 基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:43上传分享