全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211154199.4 (22)申请日 2022.09.21 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 许林峰 许自勇 李宏亮 孟凡满  吴庆波 潘力立  (74)专利代理 机构 电子科技大 学专利中心 51203 专利代理师 周刘英 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/42(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 基于图像的教学场景行为识别网络处理方 法及装置 (57)摘要 本发明公开了一种基于图像的教学场景行 为识别网络处理方法及装置, 属于图像识别技术 领域。 本发明用于教学场景下的行为识别, 通过 对图像提取全局和局部信息, 以及两种信息的融 合, 得到信息量大的融合特征; 最后据此特征对 图像中的行为做识别。 本发明的基于图像的教学 场景行为识别方式可以弥补基于视频流的行为 识别方法的算力需要大的问题, 并且 此方法需要 的训练数据量也更小。 全局和局部的特征解耦分 别提取可以获得比单路特征提取更加丰富的图 像信息; 通过对不同层的特征融合和特征级联, 可以从大量提取出的初始信息中筛选获得更多 的有效信息; 位置恢复模块可以增强模型对图像 的位置信息的感知能力。 权利要求书2页 说明书5页 附图1页 CN 115497163 A 2022.12.20 CN 115497163 A 1.一种基于图像的教学场景 行为识别网络处 理方法, 其特 征在于, 包括下列步骤: 将采集到的人物图像输入到特 征提取网络中, 获取多层全局特 征; 将采集到的人物图像利用图像破坏处理做块切分和随机重排处理, 再将重排后的图像 输入到特 征提取网络中, 获取多层局部特 征; 其中, 图像破坏处理为: 将输入图像做N ×N的块划分, 然后将位置标号为P(i,j)的图像 块重新放置在P(l,m)处; 其中, 位置坐标(i,j)和(l,m)可以相同, 但每个块对应的新位置P (l,m)之间不可重 叠; 特征融合图获取: 将不同层的全局特征和局部特征取出分别做对应的特征融合, 得到 多个初步融合特征, 再将得到的初步融合特征经过下采样和级联卷积获得最后的特征融合 图; 再将所述特征融合图展开为特征向量, 再将展开后的特征向量输入全连接层的分类网 络中获取教学场景的行为分类结果; 位置信息重构: 将不同层的局部特征经过下采样到统一大小再级联组合为新的特征表 示; 再将得到的新的特 征表示经 过位置恢复卷积 操作得到位置恢复矩阵; 监督系数设置: 将分类网络输出的行为分类结果和标签对比得到分类损 失, 再将得到 的分类损失乘上对应的监督 强度系数得到新的分类损失; 将位置信息重构得到的位置恢复 矩阵和图像破坏处理所用位置破坏信息对比得到位置重构损失; 将新的分类损失与位置重 构损失加权合并为总的损失对全局特征特征提取网络、 局部特征提取网络、 特征融合图获 取采用的网络以及位置信息重构涉及的网络进行网络参数训练, 当满足预置的训练结束 条 件时, 得到用于教学场景 行为识别的识别模型; 基于该识别模型获取目标图像的识别结果。 2.如权利要求1所述的方法, 其特 征在于, 新的分类损失为: 其中, αj表示类别编号为j的样本的监督强度系 数, 表示编号为j的样本的行为分 类标签, 表示分类网络 输出的预测类别, C为数据集的类别总数。 3.如权利要求2所述的方法, 其特 征在于, 监 督强度系数设置为: 其中, β 表示控制监 督强度的系数, 表示类别编号 为j的样本所占比例。 4.一种基于 图像的教学场景行为识别装置, 其特征在于, 包括: 图像预处理模块, 图像 破模块、 特征提取骨干网络、 特 征融合模块、 行为分类模块和训练模块; 其中, 图像预处理模块, 用于对图像进行图像预处理, 得到待处理的原始图像, 并将该原始图 像分别输入特 征提取骨干网络和图像破坏模块; 图像破坏模块, 利用预置的破坏矩阵对输入的原始图像做块结构的位置破坏重排, 并 将重排后的图像输入特 征提取骨干网络; 特征提取骨干网络用于对输入的图像进行多层特征提取; 若当前输入为原始图像, 则权 利 要 求 书 1/2 页 2 CN 115497163 A 2输出的特征表示为多层 全局特征并输入特征融合模块; 若当前输入为位置破坏重排后的图 像, 则提取的特 征表示为多层局部特 征并输入特 征融合模块和训练模块; 特征融合模块, 采用多级的双线性融合结构, 该结构首先对不同层的全局和局部特征 做双线性融合, 然后对不同层融合后的特征分别做下采样至统一尺寸, 再将所有尺寸统一 的特征级联起来输入到卷积层中获取最后的融合结果并输入行为分类模块。 该结构可以有 效的融合全局 和局部信息, 并且能融合 不同层级的全局 和局部信息 。 行为分类模块, 将输入的融合结果展开为特征向量, 再将展开后的特征向量通过全连 接层的分类网络得到教学场景的行为分类结果; 训练模块, 包括 位置恢复模块和监 督系数设置模块; 其中, 位置恢 复模块: 用于对输入的多层局部特征分别做下采样到统一尺寸, 再将尺寸 统一的特 征级联通过 卷积得到位置恢复矩阵; 监督系数设置模块: 将行为分类模块输出的分类结果和对应的标签对比得到分类损 失, 再将得到的分类损失乘上对应的监督系 数得到新的分类损失; 将位置恢复模块得到的 位置恢复矩阵与破坏矩阵作对比得到位置重构损失; 将位置重构损失与新的分类损失进 行 加权合并作为总的损失, 用于对 特征提取骨干网络、 特征融合模块、 行为分类模块的网络参 数进行网络参数调优, 当满足预置的参数调优结束条件时停止; 目标图像经图像预处理模块、 图像破坏模块、 训练好的特征提取骨干网络、 特征融合模 块和行为分类模块得到目标图像的教学场景 行为识别结果。 5.如权利要求4所述的装置, 其特征在于, 破坏矩阵的获取方式为: 将输入图像做N ×N 的块划分, 然后将位置标号为P(i,j)的图像块重新放置在P(l,m)处; 其中, 位置坐标(i,j) 和(l,m)可以相同, 但每个块对应的新位置P(l,m)之间不可重叠, 基于重新放置后的图像块 位置确定破坏矩阵。权 利 要 求 书 2/2 页 3 CN 115497163 A 3

PDF文档 专利 基于图像的教学场景行为识别网络处理方法及装置

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图像的教学场景行为识别网络处理方法及装置 第 1 页 专利 基于图像的教学场景行为识别网络处理方法及装置 第 2 页 专利 基于图像的教学场景行为识别网络处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。