全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210630316.3 (22)申请日 2022.06.06 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 宋砚 王绍萌 舒祥波  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 刘莎 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/44(2022.01) (54)发明名称 一种基于交互对象运动增强的组合动作时 空检测方法 (57)摘要 本发明公开了一种基于交互对象运动增强 的组合动作时空检测方法: (1)首先利用预训练 好的检测器和追踪器得到物体坐标以及轨迹信 息; (2)使用mask操作对输入视频片段中的特定 物体部分遮挡, 得到处理后的视频片段; (3)使用 预训练好的网络模型对(2)中的视频抽取出时空 特征; (4)根据所述物体坐标和时空特征, 使用 Non‑local模块和RoiAlign得到局部特征; (5)通 过轨迹提取模块获取轨迹特征; (6)融合局部特 征和轨迹特征, 得到组合特征; (7)利用组合特征 做最终动作预测。 权利要求书1页 说明书4页 附图2页 CN 115100737 A 2022.09.23 CN 115100737 A 1.一种基于交互对象运动增强的组合动作时空检测方法, 其特征在于, 该方法利用组 合动作时空检测模型对待检测视频片段进行组合动作时空检测; 其中, 所述组合动作时空 检测模型包括位置生成模块、 轨迹生成模块、 视频处理模块、 特征提取模块、 局部特征提取 模块、 轨迹特征生成模块、 特 征融合模块以及动作分类模块; 所述位置生成模块 中, 使用预训练好的目标检测模型Faster  R‑CNN对待检测视频片段 进行物体检测, 得到每个物体在每一帧的坐标信息; 所述轨迹生成模块中, 将 每个物体在每 一帧的坐标信息送至基于Transformer的追踪模型Stark, 对齐每个物体在每一帧的位置, 得到每个物体的轨 迹信息; 所述视频处理模块中, 使用mask操作对待检测视频片段中的特定物体进行遮挡, 得到 处理后的视频片段; 所述特征提取模块中, 使用预训练好的网络模型SlowFast提取处理后的视频片段的时 空特征; 所述局部特征提取模块中, 使用Non ‑local模块对处理后的视频片段的时空特征进行 处理后, 结合每 个物体在每一帧的坐标信息通过Ro iAlign得到局部特 征; 所述轨迹特征生成模块中, 对每 个物体的轨 迹信息进行两次线性 转换, 得到 轨迹特征; 所述特征融合模块中, 将局部特 征和轨迹特征进行特征融合, 得到组合特 征; 所述动作分类模块中, 将组合特征送至一个全连接层, 得到每个动作类别预测的概率, 完成组合动作时空检测。 2.根据权利要求1所述的一种基于交互对象运动增强的组合动作时空检测方法, 其特 征在于, 如果所述待检测视频片段中物体数量少于Faster  R‑CNN的最大物体检测数 目, 则 填充零矢量 来代表该物体。 3.根据权利要求1所述的一种基于交互对象运动增强的组合动作时空检测方法, 其特 征在于, 所述 特征提取模块输出时空特征包括慢通道时空特征Fslow和快通道时空特征Ffast, 所述局部特征提取模块中: 首先利用AdaptiveAvgPool3d函数在时序维度分别执行池化操 作, 并对池化后的特征执行concatenate操作, 得到池化特征Fpool; 接着将Fpool送至Non‑ LocalNetwork模块, 得到感受野扩大的池化特征Fnlc; 随后, 将每个物体在每一帧的坐标信 息输送到RoiAlign模块, 结合Fnlc得到物体roi特征Froi; 最后, 通过maxpool2d操作得到局部 特征Flocal。 4.根据权利要求1所述的一种基于交互对象运动增强的组合动作时空检测方法, 其特 征在于, 所述轨迹特征生成模块中: 首先将每个物体在每一帧的坐标信息转换为坐标张量 Tcoord; 接着, 将Tcoord经过两次线性转换之后得到最终的轨迹特征Ftracks; 其中每次线性转换 后均紧跟着Batc hNorm和ReLU。 5.根据权利要求1所述的一种基于交互对象运动增强的组合动作时空检测方法, 其特 征在于, 所述特征融合模块中: 首先将轨迹特征Ftracks转换成和局部特征Flocal一样的维度, 得到F′tracks; 接着将Flocal和F′tracks在通道维度拼接, 得到最终的组合特 征Fcom。 6.根据权利要求1所述的一种基于交互对象运动增强的组合动作时空检测方法, 其特 征在于, 所述组合动作时空检测模型的损失函数为交叉熵函数。权 利 要 求 书 1/1 页 2 CN 115100737 A 2一种基于交互 对象运动增强的组合动作时空检测方 法 技术领域 [0001]本发明设计了一种基于交互对象运动增强的组合动作时空检测方法, 尤其涉及对 组合动作检测的方法。 背景技术 [0002]随着短视频的火爆, 视频已经取代图片成为当前最主流的信息媒介。 单纯依靠人 工区分视频中的各类动作, 不仅会耗费大量的人力物力, 而且还会消耗大量的时间。 基于上 述因素, 借助计算机 视觉解决视频中的动作检测, 成为了 工业界和学术界研究重点。 [0003]时空动作检测(亦称为时空动作定位)是指对于一段包含动作片段的视频, 既要定 位动作主体的时空位置, 即任意时刻参与者所在的位置, 又要对该主体执行的动作分类, 判 断动作所属的类别。 之前关于时空动作检测的研究, 都是以人为主体, 忽略了客体(object) 对动作识别的影响。 而在现实场景中的大部 分动作的产生 都往往受限于事物或环境。 比如, pouring,  tear,可以让人很容易联想到它所涉及的物体。 为了充分利用object信息, 越来 越多的学者开始使用关系建模, 注意力机制, 图网络等方法来帮助时空动作检测。 上述方法 虽然在时空动作检测领域取得了较好的结果, 但是忽略了object外观信息对动作分类的影 响。 实际上, 已知动作的发生往 往涉及到新的物体, 从而产生 新的动作组合。 [0004]组合动作是指将不同的名词(物体)与动词进行关联, 形成多种动作组合。 为了提 高模型的泛化能力, 本文将动词和名词进行无重叠组合, 即训练集中相同动词涉及的物体 不会出现在测试集。 与传统时空动作检测不同, 组合动作检测(又称组合时空动作检测)要 求模型同时检测出 涉及动作的主体与客体, 以及分类其所属的动作类别。 [0005]当前的时空动作检测任务过多关注动作主体的静态特征, 忽略动作客体的运动轨 迹。 实际上, 动作客体的运动轨迹是时序信息的间接体现。 在组合动作检测任务中, 由于涉 及到主客体的交互信息, 时序信息尤为重要, 因此增强交互对 象的运动轨迹对组合动作检 测有广泛的应用前 景和实用价 值。 发明内容 [0006]本发明要解决的技术问题是针对现有技术的上述不足, 提供一种基于交互对象运 动增强的组合动作时空检测方法, 通过挖掘物体之 间的交互信息, 建模运动轨迹, 迭代训练 模型。 [0007]为实现上述目的, 本发明提供了如下 方案: [0008]一种基于交互对象运动增强的组合动作时空检测方法, 该方法利用组合动作时空 检测模型对待检测视频片段进行组合动作时空检测; 其中, 所述组合动作时空检测模型包 括位置生成模块、 轨迹生成模块、 视频处理模块、 特征提取模块、 局部特征提取模块、 轨迹特 征生成模块、 特 征融合模块以及动作分类模块; [0009]所述位置生成模块中, 使用预训练好的目标检测模型Faster  R‑CNN对待检测视频 片段进行物体 检测, 得到每 个物体在每一帧的坐标信息;说 明 书 1/4 页 3 CN 115100737 A 3

PDF文档 专利 一种基于交互对象运动增强的组合动作时空检测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于交互对象运动增强的组合动作时空检测方法 第 1 页 专利 一种基于交互对象运动增强的组合动作时空检测方法 第 2 页 专利 一种基于交互对象运动增强的组合动作时空检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。