专利一种基于多视角的行为识别方法及其应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211124350.X (22)申请日 2022.09.15 (71)申请人中国科学院合肥物质科学研究院地址 230031 安徽省合肥市蜀山区蜀山湖路350号 (72)发明人张俊　匡剑　李文静　李芳　任亭亭　蒋越　吴仲城　 (74)专利代理机构安徽省合肥新安专利代理有限责任公司 34101 专利代理师陆丽莉　何梅生 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于多视角的行为识别方法及其应用 (57)摘要本发明公开了一种基于多视角的行为识别方法及其应用，该方法包括：步骤S1：对驾驶员多视角下的驾驶同步视频进行数据集的划分以及数据的预处理操作；步骤S2：训练获取单视角对应的特征提取权重，并将其融入到多视角行为识别网络的特征提取部分；步骤S3：训练多视角下的行为识别网络，并在训练过程中引入重加权的损失计算方法；最终获得的网络可以有效的提升行为识别分类的准确性。权利要求书3页说明书7页附图3页 CN 115439936 A 2022.12.06 CN 115439936 A 1.一种基于多视角的行为识别方法，其特征在于，包括如下步骤：步骤1：行为视频数据的收集和预处理；在真实场景下针对同一行为类别同步采集不同视角的视频数据并进行归一化预处理，从而得到多视角视频集合，记为V＝{V1,V2,...,Vi,..,VI}，其中， Vi表示任意第i个视角下预处理后的视频序列，且表示第i个视角下预处理后的第k帧图像， I表示视角数， c表示图像帧数，令多视角视频集V对应的真实类别标签为T；步骤2：基于多视角的行为分类模型，包括：初级特征提取模块、中级特征提取模块和分类模块；步骤2.1：所述初级特征提取模块由N级UMP模块组成，其中，第n级UMP模块由第n级 Unit3D模块和第n级最大池化模块组成；所述第n级Unit3D模块由X个Unit3D块组成，每个Unit3D块依次包括一个三维卷积层，一个批量归一化层，一个RELU函数激活层，其中，第x个Unit3D块的三维卷积层的卷积核大小为kx； x＝1,2,. ..X；当n＝1时，第i个视角下的视频序列Vi输入第n级UMP模块中，并经过第n级Unit3D模块的处理后，输出特征图特征图再经过第n级最大池化模块的处理后，输出特征图当n＝2,3,....N时，第n ‑1级UMP模块的输出作为第n级UMP模块的输入，并经过第n级Unit3D模块和第n级最大池化模块处理的处理后，输出特征图从而由第N级 UMP模块输出特征图步骤2.2：所述中级特征提取模块由M级IBM模块组成，其中，第m级IBM模块由第m级 Inception3D模块和第m级最大池化模块组成；所述第m级 Inception3D模块包括四个并行的分支，其中，第一个分支包括X1个三维卷积层，其中，第x1个三维卷积层的卷积核大小为 x1＝1,2,...,X1；第二个分支包括X2个三维卷积层，其中，第x2个三维卷积层的卷积核大小为 x2＝1,2,...,X2；第三个分支包括X3个三维卷积层，其中，第x3个三维卷积层的卷积核大小为 x3＝1,2,...,X3；第四个分支包括X4个三维卷积层和一个池化层，其中，第x4个三维卷积层的卷积核大小为 x4＝1,2,...,X4；当m＝1时，所述特征图输入到第m级IBM模块中，并经过分别第m级 I n c e p t i o n 3 D 模块中的四个分支的处理后，相应输出第一分支特征图第二分支特征图第三分支特征图第四分支池化特征图在通道维上对四个分支输出的特征图进行张量拼接，从而获得第m级Incept ion3D模块输出的拼接特征图拼接特征图输入第m级最大池化模块进行处理后，输出特征图权　利　要　求　书 1/3 页 2 CN 115439936 A 2当m＝2， 3， ...,M时，第m ‑1级IBM模块输出的特征图作为到第m级IBM 模块的输入，并经过第m级Inception3D模块和第m级最大池化模块的处理后，输出特征图从而由第M级IBM模块输出特征图步骤2.3：所述分类模块包括Y个三维卷积层和一个平均池化层，其中，所述分类模块的第y个三维卷积层的卷积核大小为 ky_cls； y＝1,2,. ..Y；所述特征输入到分类模块中，先经过平均池化层的操作后，获得池化后的特征再依次经过Y个三维卷积层的处理后，获得第i个视角下的视频序列Vi的分类特征图谱步骤2.4：利用式(1)构建行为分类模型在第i个视角下的交叉熵损失函数步骤2.5：利用梯度下降法对所述行为分类模型进行初步训练，并计算交叉熵损失函数直到交叉熵损失函数收敛为止，从而获得第i视角对应的初步训练后的初级特征提取模块的最优权重以及中级特征提取模块的最优权重步骤2.6：所述多视角视频集合V经过初步训练后的初级特征提取模块和中级特征提取模块的处理后，获得多视角下的行为特征图谱集合后在时间维上进行张量拼接，获得融合特征FutureMapfusion，其中，表示第i个视角下的视频Vi，经过特征提取后得到的特征图；步骤2.7：所述融合特征FutureMapfusion经过初步训练后的分类模块的处理后，获得分类特征图谱FutureMapclass；步骤2.8：对所述分类特征图FutureMapclass进行维度压缩后，获得多视角视频集合V的最终分类结果Tp；步骤3：利用式(2)构建多视角下第E轮训练的行为分类模型的损失函数式(2)中， Le表示易分类程度损失，并由式(3)得到， Lh表示难分类程度损失，并由式(4) 得到， αE表示当前第E轮训练下的难易分类损失重要性占比，并由式(5)得到； Le＝‑log(Tp) (3) Lh＝‑(T‑Tp)4log(Tp)‑log(T‑Tp) (4) 式(5)中， f表示控制参数， E表示当前训练的轮数， Emax表示总训练的轮数；权　利　要　求　书 2/3 页 3 CN 115439936 A 3

专利 一种基于多视角的行为识别方法及其应用

专利一种基于多视角的行为识别方法及其应用