专利视频处理方法、装置、介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211161019.5 (22)申请日 2022.09.22 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人邓桂林　徐路　李熙尧　谢东霖　 (74)专利代理机构北京律智知识产权代理有限公司 11438 专利代理师张旭庆 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06F 16/35(2019.01) G06Q 30/06(2012.01) (54)发明名称视频处理方法、装置、介质及电子设备 (57)摘要本公开涉及计算机技术领域，具体涉及一种视频处理方法、视频处理装置、计算机可读存储介质及电子设备，包括：获取视频数据，将视频数据输入物品分类模型；基于视频数据确定视频数据对应的目标物品特征向量；基于图像数据确定图像数据中主体物品对应的主体物品特征向量；将视频数据对应的目标物品特征向量与主体物品特征向量进行融合，得到分类物品特征向量；根据文本数据对应的文本特征向量与分类物品特征向量得到至少一个物品类别。通过本公开实施例的技术方案，可以解决现有技术中非主体物品图像对物品分类存在干扰的问题。权利要求书3页说明书22页附图11页 CN 115527145 A 2022.12.27 CN 115527145 A 1.一种视频处理方法，其特征在于，所述方法包括：获取视频数据，将所述视频数据输入物品分类模型；其中，所述视频数据包括图像数据与文本数据；基于所述视频数据确定所述视频数据对应的目标物品特征向量；其中，所述目标物品特征向量所指示的目标物品同时存在于所述图像数据和文本数据；基于所述图像数据确定所述图像数据中主体物品对应的主体物品特征向量；将所述视频数据对应的目标物品特征向量与所述主体物品特征向量进行融合，得到分类物品特征向量；根据所述文本数据对应的文本特征向量与所述分类物品特征向量得到至少一个物品类别。 2.根据权利要求1所述的方法，其特征在于，所述根据所述文本数据对应的文本特征向量与所述分类物品特征向量得到至少一个物品类别，包括：将所述文本数据对应的文本特征向量与所述分类物品特征向量进行融合得到所述视频数据对应的多模态特征向量；根据所述视频数据对应的多模态特征向量得到至少一个物品类别。 3.根据权利要求1所述的方法，其特征在于，所述基于所述视频数据确定所述视频数据对应的目标物品特征向量，包括：根据所述图像数据获取所述视频数据对应的第一物品类别，根据所述图像数据与文本数据获取所述视频数据对应的第二物品类别；根据所述视频数据对应的第一物品类别以及所述视频数据对应的第二物品类别从多个物品中确定所述视频数据对应的目标物品特征向量；其中，所述多个物品为所述视频数据中所指示的物品，所述目标物品特征向量对应的目标物品满足所述第一物品类别以及所述第二物品类别。 4.根据权利要求3所述的方法，其特征在于，所述根据所述视频数据对应的第一物品类别以及所述视频数据对应的第二物品类别从多个物品中确定所述视频数据对应的目标物品特征向量，包括：根据所述视频数据对应的第一物品类别以及所述视频数据对应的第二物品类别确定目标物品类别，获取所述目标物品类别对应的多个候选目标物品特征向量；将所述多个候选目标物品特征向量拼接处理得到目标物品特征向量。 5.根据权利要求3所述的方法，其特征在于，所述根据所述图像数据获取所述视频数据对应的第一物品类别，包括：根据所述图像数据获取多个物品对应的第一图像特征向量；其中，所述图像数据指示所述多个物品；根据多个所述物品对应的第一图像特征向量进行物品分类，得到所述视频数据对应的第一物品类别。 6.根据权利要求5所述的方法，其特征在于，所述根据所述图像数据获取多个物品对应的第一图像特征向量，包括：获取所述图像数据对应的多帧图像，通过物品检测框检测所述多帧图像中的多个物品图像；权　利　要　求　书 1/3 页 2 CN 115527145 A 2获取所述多个物品图像对应的中间特征向量以及所述中间特征向量的维度，根据所述多个物品图像对应的中间特征向量以及所述中间特征向量的维度确定多个物品对应的第一图像特征向量。 7.根据权利要求3所述的方法，其特征在于，所述根据所述图像数据与文本数据获取所述视频数据对应的第二物品类别，包括：获取所述图像数据对应的第二图像特征向量，获取所述文本数据对应的第一文本特征向量；将所述图像数据对应的第二图像特征向量与所述文本数据对应的第一文本特征向量进行融合得到融合特征向量，根据所述融合特征向量确定所述视频数据对应的第二物品类别。 8.根据权利要求3所述的方法，其特征在于，所述第二物品类别对应有一级类别，所述根据所述视频数据对应的第一物品类别以及所述视频数据对应的第二物品类别从所述多个物品中确定所述视频数据对应的目标物品特征向量，包括：获取所述第二物品类别对应的一级类别以及所述一级类别的预测概率；根据所述一级类别的预测概率以及概率阈值确定置信物品类别；将所述多个物品的置信物品类别与所述多个物品的视频数据对应的第一物品类别进行匹配确定目标物品，得到所述视频数据对应的目标物品特征向量。 9.根据权利要求1所述的方法，其特征在于，所述获取所述视频数据对应的主体物品特征向量，包括：获取所述图像数据对应的多个图像子数据，获取所述图像子数据对应的第三图像特征向量以及所述图像数据对应的第一语义信息；根据所述图像子数据对应的第三图像特征向量以及所述图像数据对应的第一语义信息确定所述第三图像特征向量对应的主体权重；根据多个所述第三图像特征向量以及所述第三图像特征向量对应的主体权重确定所述视频数据对应的主体物品特征向量。 10.根据权利要求9所述的方法，其特征在于，所述根据多个所述第三图像特征向量以及所述第三图像特征向量对应的主体权重确定所述视频数据对应的主体物品特征向量，包括：根据所述第三图像特征向量对应的主体权重的权重值对所述多个所述第三图像特征向量进行排序得到排序结果；将所述排序结果中前预设排名的第三图像特征向量确定为非主体第三图像特征向量，将所述排序结果中除所述非主体第三图像特征向量的第三图像特征向量确定为主体第三图像特征向量；将所述多个非主体第三图像特征向量融合为主体第三图像特征子向量，根据所述主体第三图像特征子向量与多个所述主体第三图像特征向量确定所述视频数据对应的主体物品特征向量。 11.根据权利要求1所述的方法，其特征在于，所述方法基于物品分类模型实现，所述方法还包括：获取视频样本数据；其中，所述视频样本数据包括图像数据与文本数据，所述视频样本权　利　要　求　书 2/3 页 3 CN 115527145 A 3

专利 视频处理方法、装置、介质及电子设备

专利视频处理方法、装置、介质及电子设备