全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210156217.6 (22)申请日 2022.02.21 (71)申请人 中国科学院大学 地址 100049 北京市石景山区玉泉路19号 (甲) (72)发明人 薛健 马海峰 吕科  (74)专利代理 机构 北京纪凯知识产权代理有限 公司 11245 专利代理师 孙楠 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/42(2022.01)G06V 10/44(2022.01) G06V 10/46(2022.01) G06V 10/62(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种融合时空特征的单目三维人体姿态估 计方法及系统 (57)摘要 本发明涉及一种融合时空特征的单目三维 人体姿态估计方法及系统, 其融合了局部和全局 的空间信息, 同时结合了时间信息, 包括: 根据三 维人体姿态估计数据集进行二维人体姿态的估 计, 将得到的所述二维人体姿态提升到高维空 间; 通过Transformer提取关键点局部和全局的 特征, 将所述局部和全局的特征进行融合, 将融 合的特征送入空间全局Transformer编码器中, 提取时序上的信息; 将时序上的信息送入单层感 知机解码器中, 得到最终的三维人体姿态关键 点。 本发明用于处理单目视频的三维人体姿态估 计, 并且结合了时序信息, 大大抑制了输出的抖 动, 本发明可以在计算机 视觉领域中广泛应用。 权利要求书2页 说明书10页 附图2页 CN 114581945 A 2022.06.03 CN 114581945 A 1.一种融合时空特征的单目三维人体姿态估计方法, 其特征在于, 融合了局部和全局 的空间信息, 同时结合了时间信息, 包括: 根据三维人体姿态估计数据集进行二维人体姿态的估计, 将得到的所述二维人体姿态 提升到高维空间; 通过Transformer提取关键点局部和全局的特征, 将所述局部和全局的特征进行融合, 将融合的特 征送入空间全局Transformer编码器中, 提取时序上的信息; 将时序上的信息送入单层感知机解码器中, 得到最终的三维人体姿态关键点。 2.如权利要求1所述融合 时空特征的单目三维人体姿态估计方法, 其特征在于, 所述根 据三维人体姿态估计数据集进行二维人体姿态的估计, 包括: 预处理三维人体姿态估计数据集, 得到包括二维人体姿态的图片序列和对应的三维人 体姿态信息; 将所述二维人体姿态图片序列送入二维人体姿态检测器中, 得到二维人体姿态的关节 点骨架。 3.如权利要求1所述融合 时空特征的单目三维人体姿态估计方法, 其特征在于, 所述将 得到的所述 二维人体姿态提升 到高维空间, 包括: 将得到的二维人体姿态序列进行均分, 划分成m个序列, 其中每个序列f帧, 每帧为包含 具有17个关键点的二维空间坐标, 即将骨架序列划分成 的矩阵序列, 进而 中的每个xi为每帧的二维人体关键点坐标; 其中, J为关键点的 个数, 2为关键点的二维坐标; 将二维空间点 坐标提升 到c纬特征空间, 并进行坐标编码得到特 征矩阵 4.如权利要求1所述融合 时空特征的单目三维人体姿态估计方法, 其特征在于, 所述通 过Transformer提取关键点局部和全局的特 征, 包括: 将变换后的二维人体骨架序列进行分割, 分为上半部分肢体序列Jup和下半部分肢体 序列Jdown, 并将Jup、 Jdown分别送到局部信息编码器中, 将J送入全局的空间关键点 Transformer编码器中; 其中, J=Jup+Jdo wn。 5.如权利要求4所述融合时空特征的单目三维人体姿态估计方法, 其特征在于, 所述 Transformer编码器包括多头注意力机制和一个多层感知机; 所述多头注意力机制的计算中, 先计算每个头的注意力, 将每个头的特征进行融合得 到最后的多头注意力; 通过多头注意力 机制后, 得到上半部分时空自注意力特征矩阵和下半部分时空自注意 力特征矩阵, 将上 下两个特 征矩阵的特 征送入正则化层中对数据进行正则化; 通过多层感知机制, 将得到的两部分时空自注意力的状态单独更新得到时空特征矩阵 F(Zup), 并进行正则化。 6.如权利要求1所述融合 时空特征的单目三维人体姿态估计方法, 其特征在于, 所述提 取时序上的信息, 包括: 将得到的每帧 和 进行融合, 同时取相邻范围内 的f帧构成序列;权 利 要 求 书 1/2 页 2 CN 114581945 A 2将特征矩阵进行变形, 得到最后的包含时间信息的全局特征矩阵Z∈Rf×(J×c), 将特征矩 阵送入和上述Transformer编码器类似的时空编码器中提取时空特征, 得到最后的包含 时 间和全局特 征的矩阵 7.如权利要求1所述融合 时空特征的单目三维人体姿态估计方法, 其特征在于, 所述将 时序上的信息送入单层感知机解码器中, 得到最终的三维人体姿态关键点, 包括: 采用一维卷积 将f帧特征降低到一帧, 生成中间帧的关键点特 征矩阵 采用单层 层感知机作为 解码器, 将特 征空间的c维特 征矩阵降至三维: F(TZ)=G(b(1)+W(1)TZ 其中, G为sigmoid激活函数, 经过矩阵变换后, 得到 最后的三维人体 姿态 对网络求损失函数L: 其中, pk为真实的三维关键点坐标, 为估计出的三维人体姿态坐标, 其中J为所有人 体关键点的数量, k 为第k个关键点。 8.一种融合时空特征的单目三维人体姿态估计系统, 其特征在于, 融合了局部和全局 的空间信息, 同时结合了时间信息, 包括: 二维人体姿态估计模块, 根据三维人体姿态估计数据集进行二维人体姿态的估计, 将 得到的所述 二维人体姿态提升 到高维空间; 特征融合模块, 通过Transformer提取关键点局部和全局的特征, 将所述局部和全局的 特征进行融合, 将融合的特 征送入空间全局Transformer编码器中, 提取时序上的信息; 姿态关键点获取模块, 将时序上的信息送入单层感知机解码器中, 得到最终的三维人 体姿态关键点。 9.一种存储一个或多个程序的计算机可读存储介质, 其特征在于, 所述一个或多个程 序包括指令, 所述指令当由计算设备执行时, 使得所述计算设备执行如权利要求1至7所述 方法中的任一方法。 10.一种计算设备, 其特征在于, 包括: 一个或多个处理器、 存储器及一个或多个程序, 其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行, 所述一 个或多个程序包括用于执 行如权利要求1至7 所述方法中的任一方法的指令 。权 利 要 求 书 2/2 页 3 CN 114581945 A 3

PDF文档 专利 一种融合时空特征的单目三维人体姿态估计方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合时空特征的单目三维人体姿态估计方法及系统 第 1 页 专利 一种融合时空特征的单目三维人体姿态估计方法及系统 第 2 页 专利 一种融合时空特征的单目三维人体姿态估计方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。