专利基于人体姿态矫正的注意力时空图卷积网络行为识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211149132.1 (22)申请日 2022.09.21 (71)申请人中国地质大学（武汉）地址 430000 湖北省武汉市洪山区鲁磨路 388号 (72)发明人陈略峰　郑彪　吴敏　李敏　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师吴晓茜 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/62(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 20/40(2022.01) G06V 20/70(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于人体姿态矫正的注意力时空图卷积网络行为识别方法 (57)摘要本发明公开了一种基于人体姿态矫正的注意力时空图卷积网络行为识别方法，包括以下步骤：构建基于卷积神经网络的姿态矫正模块，对人体姿态数据进行矫正，通过将补偿值加到原始数据上，达到修正的效果；构建多重语义输入模块，对修正后的人体姿态数据进行特征提取，得到关节点，骨骼信息和速度信息；将关节点，骨骼信息以及速度信息对应的多路通道整合为一路数据以进行特征融合；使用时空图卷积网络结合注意力机制，并引入残差结构，对融和后的特征进行训练测试，最后通过softmax分类器获得识别结果。本发明有益效果是有效改善了由于人体姿态数据误差或缺失导致行为识别结果不准确的问题，进而提升了行为识别的准确率。权利要求书3页说明书7页附图3页 CN 115497161 A 2022.12.20 CN 115497161 A 1.一种基于人体姿态矫正的注意力时空图卷积网络行为识别方法，其特征在于，包括以下步骤： S1：构建基于卷积神经网络的姿态矫正模块，输入为三维的人体姿态数据，即三维空间坐标(x,y,z)，输出为对应的补偿值(Δx,Δy,Δz)，将补偿值添加到原始数据得到修正后的人体姿态数据； S2：构建多重语义输入模块，输入为修正后的人体姿态数据，进行特征提取后获得关节点、骨骼信息和速度信息； S3：将关节点、骨骼信息和速度信息对应的多路通道整合为一路数据以进行特征融合，得到融合后的特征； S4：使用时空图卷积网络结合注意力机制，引入残差网络结构，得到残差图卷积模块，将融合后的特征输入残差图卷积模块中，进行训练测试，通过softmax分类器获得行为识别结果。 2.如权利要求1所述的注意力时空图卷积网络行为识别方法，其特征在于，所述姿态矫正模块包括：依次连接的第一卷积层、第一图卷积层、时间卷积层、第二图卷积层和第二卷积层；所述第一卷积层和所述第二卷积层大小为1*1。 3.如权利要求2所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S1具体包括： S1.1：构建基于卷积神经网络的姿态矫正模块，输入三维的人体姿态数据，即三维空间坐标(x,y,z)； S1.2：通过时间卷积层学习人体姿态数据中关节点随时间变化的时间域特征，在一段人体行为视频序列当中，通过将时空序列变为类似图片的传统卷积层，由于通道保持一致，图像的通道、宽和高正好对应关节点的特征帧数、特征数和关节数，每完成一次卷积，便向后推后一帧，直至整个序列完成卷积； S1.3：通过第一图卷积层和第二图卷积层引入人体关节点连接图进行卷积来聚合特征，获得三维空间坐标(x,y,z)的补偿值，将补偿值和原始的三维空间坐标(x,y,z)相加得到修正后的人体姿态数据。 4.如权利要求3所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S1.3具体包括：每一轮卷积过程当中，对每一个关节点采取如下公式计算：其中， fout(vi)表示关节点vi的输出特征， fin(vj)表示关节点vj的输入特征w(li(vj))为权值函数， li为一种映射，其将邻域中的节点映射到其子集标签， B(vi)表示关节点vi的所有距离为1，即邻接节点的集合， Zij为归一化项，其等于相应子集的个数；对于任意一个关节点，其邻接点为在预置的人体关节点连接图中相连的点；其中一个图卷积环节的输入输出表示为：权　利　要　求　书 1/3 页 2 CN 115497161 A 2其中， fout和fin分别为输出和输入特征， M＝∑j(A+I)， A为邻接矩阵， I代表自连接， W为所有权值卷积得到的权重矩阵，通过边的权值对节点进行加权平均得到；经过上述网络处理后，获得三维空间坐标(x,y,z)的补偿值(Δx,Δy,Δz)，将补偿值和原始的三维空间坐标(x,y,z)相加得到修正后的人体姿态数据V： V＝(x+Δx,y+Δy,z+Δ z)。 5.如权利要求1所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S2具体包括： S2.1：对人体姿态数据的关节点定义如下： s＝{Vi,t|i＝1,2...,N； t＝1,2,. ..,T} 其中， T为序列中的总帧数， N为总关节点数， Vi,t表示t时刻的关节点i，由此获得人体各个关节点对应的坐标信息； S2.2：根据获得的人体关节点坐标信息，将两个关节点中靠近人体重心的点定为源关节点，其坐标为Vi,t＝(xi,t,yi,t,zi,t)，远离人体重心的点定为目标关节点，其坐标为Vj,t＝ (xj,t,yj,t,zj,t)，通过同一帧内目标关节点和源关节点作差获得骨骼的长度以及方向信息： Pi,j,t＝Vj,t‑Vi,t＝(xj,t‑xi,t,yj,t‑yi,t,zj,t‑zi,t) S2.3：根据获得的人体关节点坐标信息，对相邻帧间同一关节点的坐标进行作差获得代表时序信息的速度值，定义在t帧的关节点坐标为Vi,t＝(xi,t,yi,t,zi,t)，定义在t+1帧的关节点坐标为Vi,t+1＝(xi,t+1,yi,t+1,zi,t+1)，因此t帧的关节点和t+1帧的关节点之间的速度信息表示为： Qi,t,t+1＝Vi,t‑Vi+1,t＝(xi,t‑xi,t+1,yi,t‑yi,t+1,zi,t‑zi,t+1)。 6.如权利要求5所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S3中，所述将关节点、骨骼信息和速度信息对应的多路通道整合为一路数据以进行特征融合，融合后的特征X具体的计算公式为： X＝{Vi,t+Pi,j,t+Qi,t,t+1|i＝1,2...,N； t＝1,2. ...,T}。 7.如权利要求1所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S4中，所述残差图卷积模块具体包括：由依次连接的第一图卷积网络和时间卷积网络构成的第一分支，以及与第一分支并联的第二图卷积网络。 8.如权利要求7所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S4具体包括： S4.1：使用注意力机制加强处理融合后的特征X，获得处理后的特征数据； S4.2：将处理后的特征数据输入第一图卷积网络和第二图卷积网络中，对整个神经网络进行训练，引入跨域残差结构来稳定训练并且缓解梯度下降，每一个ST ‑GCN模块由注意力机制分配到第一图卷积网络再到时间卷积网络，并联有添加的第二图卷积网络，在每个时空图卷积模块中保持相同输入，在输出采用叠加的方式，实现跨域功能； S4.3：通过softmax分类器获得行为识别结果。 9.如权利要求8所述的注意力时空图卷积网络行为识别方法，其特征在于，步骤S4.1具体包括： S4.1.1：不考虑训练批次，融合后的特征X的维度为C ×T×N， C、 T、 N分别对应通道数，帧数以及关节点数目；权　利　要　求　书 2/3 页 3 CN 115497161 A 3

专利 基于人体姿态矫正的注意力时空图卷积网络行为识别方法

专利基于人体姿态矫正的注意力时空图卷积网络行为识别方法