专利高光视频识别方法及装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210615599.4 (22)申请日 2022.05.31 (71)申请人上海商汤科技开发有限公司地址 201306 上海市自由贸易试验区临港新片区环湖西二路8 88号C楼 (72)发明人张峰　李帅成　杨昆霖　侯军　伊帅　 (74)专利代理机构北京林达刘知识产权代理事务所(普通合伙) 11277 专利代理师刘新宇 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称高光视频识别方法及装置、电子设备和存储介质 (57)摘要本公开涉及一种高光视频识别方法及装置、电子设备和存储介质，所述方法包括：提取待识别视频的视觉特征和音频特征，所述待识别视频被切分为多个视频片段，所述视觉特征包括按时序排列的多个视频片段的视觉子特征，所述音频特征包括按时序排列的多个视频片段的音频子特征；分别对所述视觉特征和音频特征进行编码，得到视觉编码特征和音频编码特征；对所述视觉编码特征和音频编码特征进行首尾拼接，得到拼接特征；基于自注意力机制对所述拼接特征进行特征编码，得到编码后的拼接特征；基于编码后的拼接特征，识别所述多个视频片段中的高光视频片段。本公开实施例可提高高光视频识别的准确率。权利要求书2页说明书17页附图4页 CN 115035441 A 2022.09.09 CN 115035441 A 1.一种高光视频识别方法，其特征在于，包括：提取待识别视频的视觉特征和音频特征，所述待识别视频被切分为多个视频片段，所述视觉特征包括按时序排列的多个视频片段的视觉子特征，所述音频特征包括按时序排列的多个视频片段的音频子特征；分别对所述视觉特征和音频特征进行编码，得到视觉编码特征和音频编码特征；对所述视觉编码特征和音频编码特征进行首尾拼接，得到拼接特征；基于自注意力机制对所述拼接特征进行特征编码，得到编码后的拼接特征；基于编码后的拼接特征，识别所述多个视频片段中的高光视频片段。 2.根据权利要求1所述的方法，其特征在于，分别对所述视觉特征和音频特征进行编码，得到视觉编码特征和音频编码特征，包括：提取所述视觉特征中的每个视觉子特征的第一全局上下文特征；将各所述第一全局上下文特征与对应的视觉子特征进行融合，得到多个第一视觉子特征，作为所述视觉编码特征；提取所述音频特征中的每个音频子特征的第二全局上下文特征；将各所述第二全局上下文特征与对应的音频子特征进行融合，得到多个第一音频子特征，作为所述音频编码特征。 3.根据权利要求1或2任一所述的方法，其特征在于，所述基于自注意力机制对所述拼接特征进行特征编码，得到编码后的拼接特征，包括：提取所述拼接特征中的每个拼接子特征的第三全局上下文特征，其中，所述拼接子特征为第一视觉子特征或第一音频子特征；将各所述第三全局上下文特征分别与对应的拼接子特征进行融合，得到编码后的拼接特征。 4.根据权利要求3所述的方法，其特征在于，所述基于编码后的拼接特征，识别所述多个视频片段中的高光视频片段，包括：在拼接位置处，对编码后的拼接特征进行拆分，得到第二视觉子特征和第二音频子特征；将对应同一视频片段的第二视觉子特征和第二音频子特征进行融合，得到多个融合子特征；基于所述融合子特征，确定所述融合子特征对应的片段是否为高光视频片段。 5.根据权利要求1 ‑4任一所述的方法，其特征在于，在分别对所述视觉特征和音频特征进行编码，得到视觉编码特征和音频编码特征后，所述方法还包括：将从所述视觉特征和音频特征中提取的全局高光特征，分别与对应的所述视觉编码特征和音频编码特征进行融合，得到视觉融合特征和音频融合特征；所述基于编码后的拼接特征，识别所述多个视频片段中的高光视频片段，包括：基于编码后的拼接特征、所述视觉融合特征和音频融合特征，识别所述多个视频片段中的高光视频片段。 6.根据权利要求5所述的方法，其特征在于，从所述视觉特征和音频特征中提取全局高光特征的方法，包括：基于交叉注意力机制，利用全局高光嵌入，分别提取所述视觉编码特征和音频编码特权　利　要　求　书 1/2 页 2 CN 115035441 A 2征中的全局高光特征，所述全局高光嵌入为经训练得到的对高光特征进行全局抽象概括的向量。 7.根据权利要求5所述的方法，其特征在于，所述基于编码后的拼接特征、所述视觉融合特征和音频融合特征，识别所述多个视频片段中的高光视频片段，包括：基于编码后的拼接特征，得到第一识别结果；基于所述视觉融合特征，得到第二识别结果；基于所述音频融合特征，得到第三识别结果；对所述第一识别结果、第二识别结果和第三识别结果进行加权融合，得到高光片段的识别结果。 8.根据权利要求1所述的方法，其特征在于，所述提取待识别视频的视觉特征和音频特征，包括：对所述待识别视频进行分段处理，得到多个视频片段；提取所述多个视频片段中的各视频帧的图像特征；对单个视频片段中的各视频帧的图像特征进行叠加，得到单个视频片段的视频子特征；将各视频片段对应的视频子特征，按照时序进行排列，得到视觉特征。 9.一种高亮视频识别装置，其特征在于，包括：提取模块，用于提取待识别视频的视觉特征和音频特征，所述待识别视频被切分为多个视频片段，所述视觉特征包括按时序排列的多个视频片段的视觉子特征，所述音频特征包括按时序排列的多个视频片段的音频子特征；第一编码模块，用于分别对所述视觉特征和音频特征进行编码，得到视觉编码特征和音频编码特征；拼接模块，用于对所述视觉编码特征和音频编码特征进行首尾拼接，得到拼接特征；第二编码模块，用于基于自注意力机制对所述拼接特征进行特征编码，得到编码后的拼接特征；识别模块，用于基于编码后的拼接特征，识别所述多个视频片段中的高光视频片段。 10.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至8中任意一项所述的方法。 11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115035441 A 3

专利 高光视频识别方法及装置、电子设备和存储介质

专利高光视频识别方法及装置、电子设备和存储介质