全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210280734.4 (22)申请日 2022.03.22 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 何栋梁 丁二锐 王海峰  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 吕朝蕙 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/42(2022.01) G06V 10/44(2022.01)G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/732(2019.01) (54)发明名称 视频处理方法、 查询视频的方法和模 型训练 方法、 装置 (57)摘要 本公开提供了一种视频处理方法、 查询视频 的方法和模型训练方法、 装置, 涉及人工智 能领 域, 具体涉及计算机视觉、 视频理解和深度学习 技术领域, 可应用于智慧城市和 智能交通等场景 下。 视频处理方法的具体实现方案为: 针对待处 理视频, 提取多个感受野下的多个视频特征; 根 据多个感受野中目标感受野下的视频特征, 提取 待处理视频的局部特征; 根据多个感受野中最大 感受野下的视频特征, 得到针对待处理视频的全 局特征; 以及融合局部特征和全局特征, 得到待 处理视频的目标特 征。 权利要求书4页 说明书17页 附图10页 CN 114612759 A 2022.06.10 CN 114612759 A 1.一种视频处 理方法, 包括: 针对待处 理视频, 提取多个感受野下的多个视频 特征; 根据所述多个感受野中目标感受野下的视频 特征, 提取所述待处 理视频的局部特 征; 根据所述多个感受野中最大感受野下的视频特征, 得到所述待处理视频的全局特征; 以及 融合所述局部特 征和所述全局特 征, 得到所述待处 理视频的目标 特征。 2.根据权利要求1所述的方法, 其中, 所述根据所述多个感受野中目标感受野下的视频 特征, 提取所述待处 理视频的局部特 征包括: 根据预定尺寸的滑动窗口截取 所述目标感受野下的视频 特征, 得到多个视频子特 征; 针对所述多个视频子特征中的每个子特征, 采用注意力算法对所述每个子特征处理, 得到处理后子特 征; 以及 根据针对所述多个视频子特 征得到的多个处 理后子特 征, 得到所述局部特 征。 3.根据权利要求2所述的方法, 其中, 所述根据针对多个视频子特征得到的多个处理后 子特征, 得到所述局部特 征包括: 融合所述多个处 理后子特 征, 得到融合后特 征; 采用三维卷积提取 所述融合后特 征的权重特征; 以及 根据所述权 重特征对所述融合后特 征加权, 得到所述局部特 征。 4.根据权利要求2所述的方法, 其中, 所述根据预定尺寸的滑动窗口截取所述目标感受 野下的视频 特征, 得到多个视频子特 征包括: 根据空间维度的第 一预定步长和时间维度的第 二预定步长移动所述滑动窗口, 截取得 到所述多个视频子特 征, 其中, 所述第一预定步长小于所述滑动 窗口在所述空间维度的长度, 所述第二预定步 长小于所述滑动窗口在所述时间维度的长度。 5.根据权利要求1所述的方法, 其中, 所述融合所述局部特征和所述全局特征, 得到所 述待处理视频的目标 特征包括: 采用交叉注意力算法融合所述局部特 征和所述全局特 征, 得到所述目标 特征。 6.根据权利要求5所述的方法, 其中, 所述采用交叉注意力算法融合所述局部特征和所 述全局特 征, 得到所述目标 特征包括: 根据所述全局特 征, 获得查询特 征; 根据所述局部特 征, 获得键特 征和值特 征; 以及 根据所述查询特征、 所述键特征和所述值特征, 采用所述交叉注意力算法得到所述目 标特征。 7.一种查询视频的方法, 包括: 提取查询文本的文本特 征; 获取多个备选 视频中每 个视频的目标 特征; 以及 根据所述文本特征和所述目标特征, 确定所述多个备选视频中与所述查询文本相匹配 的视频, 其中, 所述目标 特征是采用权利要求1~6中任一项所述的视频处 理方法获得的。 8.一种视频处理模型的训练方法, 其中, 所述视频处理模型包括视频特征提取网络、 局权 利 要 求 书 1/4 页 2 CN 114612759 A 2部特征提取网络和特 征融合网络; 所述方法包括: 将样本数据中包括的样本视频输入所述视频特征提取网络, 得到多个感受野下的多个 视频特征; 将所述多个感受野中目标感受野下的视频特征输入所述局部特征提取网络, 得到所述 样本视频的局部特 征; 根据所述多个感受野中最大感受野下的视频 特征, 得到所述样本 视频的全局特 征; 将所述局部特征和所述全局特征输入所述特征融合网络, 得到所述样本视频的目标特 征; 获取所述样本数据中的样本文本的文本特 征; 以及 根据所述目标 特征和所述文本特 征, 对所述视频处 理模型进行训练。 9.根据权利要求8所述的方法, 其中, 所述文本特征包括所述样本文本的句子级特征; 所述根据所述目标 特征和所述文本特 征, 对所述视频处 理模型进行训练包括: 根据所述目标 特征和所述句子级特 征之间的相似度, 对所述视频处 理模型进行训练。 10.根据权利要求9所述的方法, 其中, 所述文本特征还包括所述样本文本的词级特征; 所述方法还 包括: 根据所述局部特 征和所述词级特 征, 对所述视频处 理模型进行训练。 11.根据权利要求10所述的方法, 其中, 所述词 级特征包括与 所述样本文本包括的多个 实体词分别对应的多个词特征; 所述根据所述局部特征和所述词级特征, 对所述视频处理 模型进行训练包括: 确定所述多个词特征中的每个词特征与 所述局部特征之间的相似度, 得到多个第 一相 似度; 以及 根据所述多个第一相似度, 对所述视频处 理模型进行训练。 12.根据权利要求11所述的方法, 其中, 所述根据所述局部特征和所述词级特征, 对所 述视频处 理模型进行训练还 包括: 针对所述每个词特征, 确定所述每个词特征与目标样本数据中样本视频的局部特征之 间的相似度, 得到与所述多个词特 征分别对应的多个第二相似度; 根据所述多个第一相似度和所述多个第二相似度, 确定所述视频处理模型的损 失; 以 及 根据所述损失, 对所述视频处 理模型进行训练, 其中, 所述目标样本数据中的样本文本不包括所述多个词特 征对应的词。 13.一种视频处 理装置, 包括: 视频特征提取模块, 用于针对待处 理视频, 提取多个感受野下的多个视频 特征; 局部特征提取模块, 用于根据所述多个感受野中目标感受野下的视频特征, 提取所述 待处理视频的局部特 征; 全局特征确定模块, 用于根据所述多个感受野中最大感受野下的视频特征, 得到所述 待处理视频的全局特 征; 以及 特征融合模块, 用于融合所述局部特征和所述全局特征, 得到所述待处理视频的目标 特征。 14.根据权利要求13所述的装置, 其中, 所述局部特 征提取模块包括:权 利 要 求 书 2/4 页 3 CN 114612759 A 3

PDF文档 专利 视频处理方法、查询视频的方法和模型训练方法、装置

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频处理方法、查询视频的方法和模型训练方法、装置 第 1 页 专利 视频处理方法、查询视频的方法和模型训练方法、装置 第 2 页 专利 视频处理方法、查询视频的方法和模型训练方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。