专利 一种目标检索方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210538456.8 (22)申请日 2022.05.17 (71)申请人浙江大华技术股份有限公司地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人鲁逸峰　周祥明　郑春煌　吴剑峰　韩加旭　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师杜晶 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/44(2022.01) G06V 10/75(2022.01) G06V 10/80(2022.01)G06K 9/62(2022.01) (54)发明名称一种目标检索方法及相关装置 (57)摘要本申请涉及计算机技术领域，特别涉及一种目标检索方法及相关装置，用于提高检索效率和准确率，该方法为：获取包含目标检索对象的待检索图像后，将待检索图像，输入至目标分类模型中，目标分类模型中包含特征提取层和输出层，从特征提取层获取视觉特征，以及从输出层获取语义特征，然后，对语义特征和视觉特征进行特征融合，得到待检索图像对应的目标融合特征，进而基于目标融合特征，从各候选图像中，确定与待检索图像匹配的目标图像。权利要求书3页说明书15页附图4页 CN 114880513 A 2022.08.09 CN 114880513 A 1.一种目标检索方法，其特征在于，包括：获取包含目标检索对象的待检索图像；将所述待检索图像，输入至包含特征提取层和输出层的目标分类模型中，得到所述特征提取层输出的视觉特征，以及得到所述输出层输出的语义特征，所述语义特征用于表征所述目标检测对象的分类结果；对所述语义特征和所述视觉特征进行特征融合，得到所述待检索图像对应的目标融合特征；基于各候选图像和所述待检索图像各自对应的目标融合特征，从所述各候选图像中，确定与所述待检索图像匹配的至少一个目标图像。 2.如权利要求1所述的方法，其特征在于，所述对所述语义特征和所述视觉特征进行特征融合，得到所述待检索图像对应的目标融合特征，包括：对所述语义特征和所述视觉特征进行拼接，得到所述待检索图像对应的初始融合特征，并将所述初始融合特征，直接作为所述目标融合特征；或者，对所述语义特征和所述视觉特征进行拼接，得到所述待检索图像对应的初始融合特征，并获取与所述待检索图像关联的各待融合图像各自对应的初始融合特征，以及基于所述待检索图像对应的初始融合特征以及所述各待融合图像各自对应的初始融合特征，得到所述目标融合特征。 3.如权利要求2所述的方法，其特征在于，所述对所述语义特征和所述视觉特征进行拼接，得到所述待检索图像对应的初始融合特征，包括：按照指定的特征拼接顺序，对所述语义特征和所述视觉特征进行拼接；基于所述语义特征和所述视觉特征各自对应的预设权重系数，对拼接得到的特征进行加权，得到所述待检索图像对应的初始融合特征。 4.如权利要求2所述的方法，其特征在于，所述基于所述待检索图像对应的初始融合特征以及所述各待融合图像各自对应的初始融合特征，得到所述目标融合特征，包括：基于所述待检索图像和所述各待融合图像各自对应的权重系数，对所述待检索图像对应的初始融合特征以及所述各待融合图像各自对应的初始融合特征进行加权求和；基于所述各待融合图像的个数，对加权求和后得到的融合特征进行平均，得到所述目标融合特征。 5.如权利要求2所述的方法，其特征在于，所述语义特征中包含各分类置信度和归一化信息；所述对所述语义特征和所述视觉特征进行拼接，得到所述待检索图像对应的初始融合特征，包括：基于所述语义特征中包含的所述归一化信息，对所述语义特征中包含的各分类置信度和所述视觉特征进行归一化处理，得到符合预设取值范围的各分类置信度和视觉特征；对符合预设取值范围的各分类置信度和视觉特征进行拼接，得到所述待检索图像对应的初始融合特征。 6.如权利要求5所述的方法，其特征在于，所述各分类置信度包括各类别置信度，和/ 或，各属性置信度。 7.如权利要求2所述的方法，其特征在于，所述待检索图像为视频中的视频帧，所述视权　利　要　求　书 1/3 页 2 CN 114880513 A 2频还包含其他视频帧；所述获取与所述待检索图像关联的各待融合图像各自对应的初始融合特征之前，还包括：将包含所述目标检索对象，且播放时间早于所述视频帧的其他视频帧，作为与所述待检索图像关联的各待融合图像；针对所述各待融合图像中的任意一个待融合图像，执行以下操作：将所述任意一个待融合图像输入至所述目标分类模型中，得到所述任意一个待融合图像对应的视觉特征和语义特征，其中所述任意一个待融合图像的语义特征用于表征所述任意一个待融合图像的分类结果；基于所述任意一个待融合图像对应的视觉特征和语义特征，得到所述任意一个待融合图像对应的初始融合特征。 8.如权利要求1 ‑7中任一项所述的方法，其特征在于，所述基于各候选图像和所述待检索图像各自对应的目标融合特征，从所述各候选图像中，确定与所述待检索图像匹配的至少一个目标图像之前，还包括：从各候选图像中，确定出所述各候选图像各自包含的至少一个候选区域，每个候选区域中包含一种检索类型的检索对象；针对确定出的各候选区域中的任意一个候选区域，执行以下操作：将所述任意一个候选区域，输入至所述目标分类模型中，得到所述任意一个候选区域对应的视觉特征和语义特征，并基于所述任意一个候选区域对应的视觉特征和语义特征，获得所述任意一个候选区域对应的目标融合特征；记录所述任意一个候选区域对应的目标融合特征与对应的候选图像之间的映射关系。 9.如权利要求1 ‑7中任一项所述的方法，其特征在于，所述基于各候选图像和所述待检索图像各自对应的目标融合特征，从所述各候选图像中，确定与所述待检索图像匹配的至少一个目标图像，包括：计算所述各候选图像各自对应的目标融合特征，分别与所述待检索图像对应的目标融合特征之间的相似度；基于计算出的各相似度，从与所述待检索图像之间的相似度大于预设阈值的候选图像中，确定出与所述待检索图像匹配的至少一个目标图像。 10.一种目标检索装置，其特征在于，包括：获取单元，用于获取包含目标检索对象的待检索图像；输出单元，用于将所述待检索图像，输入至包含特征提取层和输出层的目标分类模型中，得到所述特征提取层输出的视觉特征，以及得到所述输出层输出的语义特征，所述语义特征用于表征所述目标检测对象的分类结果；融合单元，用于对所述语义特征和所述视觉特征进行特征融合，得到所述待检索图像对应的目标融合特征；匹配单元，用于基于各候选图像和所述待检索图像各自对应的目标融合特征，从所述各候选图像中，确定与所述待检索图像匹配的至少一个目标图像。 11.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求 1‑9中任一权　利　要　求　书 2/3 页 3 CN 114880513 A 3

专利 一种目标检索方法及相关装置

专利一种目标检索方法及相关装置