全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210607692.0 (22)申请日 2022.05.31 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 吴俊毅 高志鹏 姚灿荣 涂梅林  赵建强 杜新胜 张辉极  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/26(2022.01) G06V 10/42(2022.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 联合全局和局部信息的层次监督行人再识 别方法及系统 (57)摘要 本发明给出了一种联合全局和局部信息的 层次监督行人再识别方法和系统, 包括将输入图 像 切成 多 个图 像 小 块 , 将图 像 小 块 作为 Transformers分支网络的输入; 将部分 Transformers分支网络的网络快的特征信息通 过expand层后引入ResNet50分支网络中对应 的 残差卷积块, expand层将2D张量拓展为4D张量; 将拓展后的4D张量特征信息和对应的残差卷积 块进行通道级联; 将Transformers分支通过 expand层转换后的特征和对应的ResNet50特征 经过双线性池化层, 进行特征融合交互, 并通过 损失函数进行约束。 本发明提出的方法和系统执 行一个单向聚合操作来推动CNN学习全局特征信 息的同时, 为了能充分利用全局特征信息和局部 信息, 结合双线性池化来执行层次监督, 在跨长 时间段的行人重识别数据集上有很显著的性能 提升。 权利要求书3页 说明书8页 附图3页 CN 114863486 A 2022.08.05 CN 114863486 A 1.一种联合全局 和局部信息的层次监 督行人再识别方法, 其特 征在于, 包括: S1: 将输入图像切成多个图像小块, 将所述图像小块作为Transformers分支网络的输 入; S2: 将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入 ResNet50分支网络中对应的残差卷积块, 所述expand层将2D张量拓展为 4D张量; S3: 将拓展后的4D张量特 征信息和对应的所述残差卷积块进行通道级联; S4: 将Trans formers分支通过expand层转换后的特征和对应的ResNet50特征经过双线 性池化层, 进行 特征融合交 互, 并通过损失函数进行约束。 2.根据权利 要求1所述的行人再识别方法, 其特征在于, 所述Transformers分支网络包 括12块同样结构的网络块, 所述网络块的序号编号为0 ‑11, 所述输入图像被切为N个图像小 块, 其中, P和S的取值均为16, 代表向下取整函数, H和W表示高 度和宽度。 3.根据权利要求2所述的行人再识别方法, 其特征在于, 将序号编号为1、 3、 5、 8的所述 网络块的特 征信息分别引入ResNet5 0中对应的残差卷积块。 4.根据权利要求1所述的行人再识别方法, 其特征在于, 所述S3具体为: 将拓展后的4D 张量特征信息和对应的残差卷积块进 行通道级联, 通道数增加为原 来的2倍, 为了使 特征能 正常送进下一个残差卷积块, 采用1*1卷积将通道恢复, 再经过BN层和ReLU激活函数, 其表 达式如下: 其中, R代表ReLU激活函数, B代表BN层, C1*1代表1* 1卷积层, 代表Transformers分支通过expand层转换后的特征, 代表ResNet50的特 征, i对应分支网络的序号, i=0时, 对应的Transformers分支序号为1的网络块特征, ResNet50的conv1。 5.根据权利要求4所述的行人再识别方法, 其特征在于, 所述S4的具体表达式如下: 其中, (x, y)代表特征在位置(x, y)处的值, vec操作将矩阵变成向量, 两个向量的外积, S代 表常 量。 6.根据权利要求1所述的行人再识别方法, 其特征在于, 所述损失函数包括三元组损失 函数和标签平滑正则化的交叉熵损失函数, 其中, 所述三元组损失函数的公式为 其中P代表不同行人身份的数量, K0 代表每个行人选择K0张不同的图像, 对于每张训练图像xa, 在和xa相同身份的图像中选择一 张相似度距离最大的图像xp作为正样本, 在和xa不同身份的图像中选择一张相似度距离最 小的图像xn作为负样本, 为认为设定的阈值, d( ·,·)定义为欧式距离, batch表示批处理 的参数大小; 所述标签平滑正则化的交叉熵损失函数的公式为 其中ε∈[0,1], K是行人的类别数, p(k)代表预测属 于类别k的概 率。 7.一种计算机可读存储介质, 其上存储有一或多个计算机程序, 其特征在于, 该一或多权 利 要 求 书 1/3 页 2 CN 114863486 A 2个计算机程序被 计算机处 理器执行时实施权利要求1至 6中任一项所述的方法。 8.一种联合全局 和局部信息的层次监 督行人再识别系统, 其特 征在于, 所述系统包括: 图像切割模块: 配置用于将输入图像切成多个图像小块, 将所述图像小块作为 Transformers 分支网络的输入; 张量拓展模块: 配置用于将部分所述Transformers分支网络的网络快的特征信息通过 expand层后引入ResNet50分支网络中对应的残差卷积块, 所述expand层将2D张量拓展为4D 张量; 通道级联模块: 配置用于将拓展后的4D张量特征信息和对应的所述残差卷积块进行通 道级联; 特征融合模块: 配置用于将Transformers分支通过expand层转换后的特征和对应的 ResNet50特征经过双线性池化层, 进行 特征融合交 互, 并通过损失函数进行约束。 9.根据权利 要求8所述的行人再识别系统, 其特征在于, 所述Transformers分支网络包 括12块同样结构的网络块, 所述网络块的序号编号为0 ‑11, 所述输入图像被切为N个图像小 块, 其中, P和S的取值均为16, 代表向下取整函数, H和W表示高 度和宽度。 10.根据权利 要求9所述的行人再识别系统, 其特征在于, 将序号编号为1、 3、 5、 8的所述 网络块的特 征信息分别引入ResNet5 0中对应的残差卷积块。 11.根据权利要求8所述的行人再识别系统, 其特征在于, 将拓展后的4D张量特征信息 和对应的残差卷积块进 行通道级联, 通道数增加为原 来的2倍, 为了使 特征能正常送进下一 个残差卷积块, 采用1*1卷积将通道恢复, 再经过BN层和ReLU激活函数, 其表达式如下: 其中, R代表ReLU激活函数, B代表BN层, C1*1代表1*1卷积层, 代表Transformers分支通过expand层转换后的特征, 代表ResNet50的特征, i对应分 支网络的序号, i=0时, 对应的Transformers分支序号为1的网络块特征, ResNet50的 conv1。 12.根据权利要求11所述的行人再识别系统, 其特征在于, 其中, (x, y)代表特征在位置 (x, y)处的值, vec操作将矩阵变成向量, 两个向量的外积, S代 表常量。 13.根据权利要求8所述的行人再识别系统, 其特征在于, 所述损失函数包括三元组损 失函数和标签平滑正则化的交叉熵损失函数, 其中, 所述三元组损失函数的公式为 其中P代表不同行人身份的数量, K0 代表每个行人选择K0张不同的图像, 对于每张训练图像xa, 在和xa相同身份的图像中选择一 张相似度距离最大的图像xp作为正样本, 在和xa不同身份的图像中选择一张相似度距离最 小的图像xn作为负样本, 为认为设定的阈值, d( ·,·)定义为欧式距离, batch表示批处理 的参数大小; 所述标签平滑正则化的交叉熵损失函数的公式为 其中ε∈[0,1], K是行人的类别数, p(k)代表预测属权 利 要 求 书 2/3 页 3 CN 114863486 A 3

PDF文档 专利 联合全局和局部信息的层次监督行人再识别方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 联合全局和局部信息的层次监督行人再识别方法及系统 第 1 页 专利 联合全局和局部信息的层次监督行人再识别方法及系统 第 2 页 专利 联合全局和局部信息的层次监督行人再识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。