(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211124350.X
(22)申请日 2022.09.15
(71)申请人 中国科学院合肥物质科 学研究院
地址 230031 安徽省合肥市蜀山区蜀山湖
路350号
(72)发明人 张俊 匡剑 李文静 李芳
任亭亭 蒋越 吴仲城
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
专利代理师 陆丽莉 何梅生
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于多视角的行为识别方法及其应用
(57)摘要
本发明公开了一种基于多视角的行为识别
方法及其应用, 该方法包括: 步骤S1: 对驾驶员多
视角下的驾驶同步视频进行数据集的划分以及
数据的预处理操作; 步骤S2: 训练获取单视角对
应的特征提取权重, 并将其融入到多视角行为识
别网络的特征提取部分; 步骤S3: 训练多视角下
的行为识别网络, 并在训练过程中引入重加权的
损失计算方法; 最终获得的网络可以有效的提升
行为识别分类的准确性。
权利要求书3页 说明书7页 附图3页
CN 115439936 A
2022.12.06
CN 115439936 A
1.一种基于多视角的行为识别方法, 其特 征在于, 包括如下步骤:
步骤1: 行为视频 数据的收集和预处 理;
在真实场景下针对同一行为类别同步采集不同视角的视频数据并进行归一化预处理,
从而得到多视角视频集合, 记为V={V1,V2,...,Vi,..,VI}, 其中, Vi表示任意第i个视角下预
处理后的视频序列, 且
表示第i个视角下预处理后的第k帧图
像, I表示视角数, c表示图像帧数, 令多视角视频集V对应的真实类别标签为T;
步骤2: 基于多视角的行为分类模型, 包括: 初级特征提取模块、 中级特征提取模块和分
类模块;
步骤2.1: 所述初级特征提取模块由N级UMP模块组成, 其中, 第n级UMP模块由第n级
Unit3D模块和第n级最大池化模块组成;
所述第n级Unit3D模块 由X个Unit3D块组成, 每个Unit3D块依次包括一个三维卷积层,
一个批量归一化层, 一个RELU函数激活层, 其中, 第x个Unit3D块的三维卷积层的卷积核大
小为kx; x=1,2,. ..X;
当n=1时, 第i个视角下的视 频序列Vi输入第n级UMP模 块中, 并经过第n级Unit3D模 块的
处理后, 输出特征图
特征图
再经过第n级最大池化模
块的处理后, 输出 特征图
当n=2,3,....N时, 第n ‑1级UMP模块的输出
作为第n级UMP模块的
输入, 并经过第n级Unit3D模块和第n级最大池化模块处理的处理后, 输出特征图
从而由第N级 UMP模块输出 特征图
步骤2.2: 所述中级特征提取模块由M级IBM模块组成, 其中, 第m级IBM模块由第m级
Inception3D模块和第m级最大池化模块组成;
所述第m级 Inception3D模 块包括四个并行的分支, 其中, 第一个分支包 括X1个三维卷积
层, 其中, 第x1个三维卷积层的卷积核大小为
x1=1,2,...,X1; 第二个分支包括X2个
三维卷积层, 其中, 第x2个三维卷积层的卷积核大小为
x2=1,2,...,X2; 第三个分支
包括X3个三维卷积层, 其中, 第x3个三维卷积层的卷积核大小为
x3=1,2,...,X3; 第
四个分支包括X4个三维卷积层和一个池化层, 其中, 第x4个三维卷积层的卷积核大小为
x4=1,2,...,X4;
当m=1时, 所述特征图
输入到第m级IBM模块中, 并经过分别第m级
I n c e p t i o n 3 D 模 块 中 的 四 个 分 支 的 处 理 后 ,相 应 输 出 第 一 分 支 特 征 图
第 二 分 支 特 征图
第 三 分 支 特 征图
第四分支池化特征图
在通道维上对
四个分支输出的特征图进行张量拼接, 从而获得第m级Incept ion3D模块输出的拼接特征图
拼接特征图
输入第m级最大池化模块进行处理
后, 输出特征图
权 利 要 求 书 1/3 页
2
CN 115439936 A
2当m=2, 3, ...,M时, 第m ‑1级IBM模块输出的特征图
作为到第m级IBM
模块的输入, 并经过第m级Inception3D模块和第m级最大池化模块的处理后, 输出特征图
从而由第M级IBM模块输出 特征图
步骤2.3: 所述分类模块包括Y个三维卷积层和一个平均池化层, 其中, 所述分类模块的
第y个三维卷积层的卷积核大小为 ky_cls; y=1,2,. ..Y;
所述特征
输入到分类模块中, 先经过平均池化层的操作后, 获得池化
后的特征
再依次经过Y个三维卷积层的处理后, 获得第i个视角下的
视频序列Vi的分类特 征图谱
步骤2.4: 利用式(1)构建行为分类模型在第i个视角下的交叉熵损失函数
步骤2.5: 利用梯度 下降法对所述行为分类模型进行初步训练, 并计算交叉熵损失函数
直到交叉熵损失函数
收敛为止, 从而获得第i视角对应的初步训练后的初级特
征提取模块的最优权 重
以及中级特 征提取模块的最优权 重
步骤2.6: 所述多视角视频集合V经过初步训练后的初级特征提取模块和中级特征提取
模块的处 理后, 获得多视角下的行为特 征图谱集 合
后 在
时间维上进行张量拼接, 获得融合特征FutureMapfusion, 其中,
表示第i个
视角下的视频Vi, 经过特征提取后得到的特 征图;
步骤2.7: 所述融合特征FutureMapfusion经过初步训练后的分类模块 的处理后, 获得分
类特征图谱FutureMapclass;
步骤2.8: 对所述分类特征图FutureMapclass进行维度压缩后, 获得多视角视频集合V的
最终分类结果Tp;
步骤3: 利用式(2)构建多视角下第E轮训练的行为分类模型的损失函数
式(2)中, Le表示易分类程度损失, 并由式(3)得到, Lh表示难分类程度损失, 并由式(4)
得到, αE表示当前第E轮训练下的难易分类损失重要性占比, 并由式(5)得到;
Le=‑log(Tp) (3)
Lh=‑(T‑Tp)4log(Tp)‑log(T‑Tp) (4)
式(5)中, f表示控制参数, E表示当前训练的轮数, Emax表示总训练的轮数;权 利 要 求 书 2/3 页
3
CN 115439936 A
3
专利 一种基于多视角的行为识别方法及其应用
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:47上传分享