全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210288377.6 (22)申请日 2022.03.22 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 李洪均 陈金怡 孙晓虎 陈俊杰  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 田凌涛 (51)Int.Cl. G06V 20/40(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于场景目标的多记忆视频异常检测和定 位方法及系统 (57)摘要 本发明公开了基于场景目标的多记忆视频 异常检测和定位方法及系统,利用全局异常分支 和局部异常分支分别从全局和局部角度对视频 中的目标进行异常检测, 实现了着 重关注异常可 能发生的区域的目标; 通过对场景目标分布的充 分利用, 将远点目标和近点目标缩放到了统一大 小, 有效缓解了视场角带来的差异; 结合模型双 分支的特点, 将每个目标进行异常量化并定位的 方法, 可以做到只标注出异常目标区域, 且定位 效果十分清晰。 本发明能在提高视频异常检测性 能的同时对异常目标进行清晰定位, 这对于智能 视频异常检测领域具有重要意 义。 权利要求书4页 说明书13页 附图6页 CN 114627421 A 2022.06.14 CN 114627421 A 1.基于场景目标的多记忆视频异常检测和定位方法, 其特征在于: 基于目标场景下的 各正常视频, 执行步骤S1至步骤S2训练获得最优全局预测模型, 以及最优局部预测模型, 通 过步骤S3至步骤S4, 应用最优全局预测模型和最优局部预测模型结合, 对当前采集视频帧 进行异常检测与定位: 步骤S1: 分别针对目标场景下的各正常视频, 首先提取正常视频的每一帧, 作为全局训 练集, 然后提取该正常视频中各视频帧里各预设类型目标对应的目标窗口, 得到该正常视 频中各预设类型目标分别沿该正常视频中各视频帧的目标 管道, 作为局部训练集; 步骤S2: 基于全局训练集, 以第一预设个数的连续视频帧为输入, 该连续视频帧的下一 个视频帧为输出, 训练全局预测模型, 得到最优 全局预测模型; 基于局部训练集, 以第 一预设个数连续视频帧中各预设类型目标对应的目标管道为输 入, 该连续视频帧的下一个视频帧中各预设类型目标对应的目标窗口为输出, 训练局部预 测模型, 得到最优局部预测模型; 全局预测模型训练与局部预测模型训练分别均迭代执行 步骤S2.1至步骤S2.3, 直到损失函数 稳定或达 到最大迭代次数: 步骤S2.1: 基于待训练预测模型, 将第一预设个数连续视频帧的输入数据输入第一网 络进行特征提取, 得到 输入数据对应的各 预设查询项; 步骤S2.2: 分别针对该各预设查询项, 将预设查询项输入第二网络, 得到该预设查询项 对应的融合特 征项, 进而得到该 各预设查询项分别所对应的融合特 征项; 步骤S2.3: 基于输入数据对应的各预设查询项, 以及各预设查询项分别对应的融合特 征项, 输入第三网络, 得到关于该输入数据的下一个视频帧的输出 数据, 更新预测模型; 步骤S3: 以当前时刻上一个视频帧向历史时间方向的第 一预设个数连续视频帧作为待 分析数据, 基于最优全局预测模型预测获得当前预测视频帧, 以及最优局部预测模型预测 获得当前预测视频帧中各预设类型目标的目标预测窗口, 对当前采集视频帧进行异常检 测, 若判断为异常, 执行步骤S4; 若判断为非异常, 则按S 3的方式, 对 下一采集视频帧进 行异 常检测; 步骤S4: 针对检测当前采集视频帧为异常, 基于最优全局预测模型预测获得当前预测 视频帧, 以及最优局部预测模型预测获得当前预测视频帧中各预设类型目标的目标预测窗 口, 对当前采集视频帧的异常目标窗口进行定位, 检测结束。 2.根据权利要求1所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 所述步骤S1中分别针对各正常视频, 各预设类型目标对应的目标管道提取的具体过程 如下: 利用在MS  COCO数据 集上预训练过的Yolov5模型对各视频帧中的各预设类型目标进行 检测, 并借助DeepSORT目标跟踪算法将前后视频帧的各预设类型目标对应起来, 得到各预 设类型目标分别对应的目标管道, 并对各目标管道进行不失真缩放统一尺寸, 得到局部训 练集。 3.根据权利要求1所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 所述步骤S2中, 所述第一网络、 第三网络均为U ‑Net网络结构, 第一网络去掉最后的一个 批标准化层和ReLU层, 采用L2标准 化层替代。 4.根据权利要求1所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 所述步骤S2.1中, 基于第一预设个数连续视频帧的输入数据YS=(Et‑S,…,Et‑2,Et‑1),经权 利 要 求 书 1/4 页 2 CN 114627421 A 2第一网络对输入数据进行特征提取, 得到输入数据对应的各预设查询项 其中, YT指代第一预设S个连续视频帧的输入数据, t指代预测的时刻, E指代各视频帧的输 入数据; 为预测t时刻视频帧的输入数据对应的第k个预设查询项, k=1,...,K, K为输入 数据对应的预设查询项总个数, K=(W/8) ×(H/8), W和H分别表示输入数据的宽度和高度。 5.根据权利要求4所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 所述步骤S2.2中, 所述第二网络包含有M个内存项 分别针对各预设 查询项 该预设查询项与M个内存项分别进行余弦相似度的计算并应用softmax函数, 得 到该预设查询项 分别与各内存项 的权重 基于各内存项与该 预设查询项的权 重, 得到该 预设查询项对应的融合特 征项 6.根据权利要求5所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 针对所述第二网络中的各内存项, 执 行以下过程, 对各内存项 进行更新: 基于输入数据对应的各预设查询项分别与各内存项的权重 得到各内存项分别对 应的索引集合 索引集合中各子集为与该内存项的权重 最高的各预设查询 项; 分别 针对各内存项, 基于该内存项与其对应的索引集合 中各预设查询项的权重 采用以 下公式对该内存项 进行更新: 其中, f(·)表示L2标准化, pm指代更新后的内存项。 7.根据权利要求1所述的基于场景目标的多记忆视频异常检测和定位方法, 其特征在 于: 所述步骤2中全局 预测模型与局部预测模型的训练损失函数L分别均由预测损失Lpred、 特征紧密损失Lcompact和特征分离损失Lseparate三部分构成, L=Lpred+ ηcLcompact+ ηsLseparate 权 利 要 求 书 2/4 页 3 CN 114627421 A 3

PDF文档 专利 基于场景目标的多记忆视频异常检测和定位方法及系统

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于场景目标的多记忆视频异常检测和定位方法及系统 第 1 页 专利 基于场景目标的多记忆视频异常检测和定位方法及系统 第 2 页 专利 基于场景目标的多记忆视频异常检测和定位方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。