全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210430266.4 (22)申请日 2022.04.22 (71)申请人 西北大学 地址 710069 陕西省西安市碑林区太白北 路229号 (72)发明人 高岭 周腾 曹亚梅 周一璇  陈沐梓 秦钰林 曹瑞 郑杰  (74)专利代理 机构 西安西达专利代理有限责任 公司 61202 专利代理师 刘华 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多特征融合及多阶段训练的文化 资源视频中文 描述生成方法 (57)摘要 一种基于多特征融合及多阶段训练的文化 资源视频中文描 述生成方法, 包括从外观、 运动、 语义和音频方面提取多维特征, 以增强编码器的 内容表示能力; 构造编码器, 进行多特征的融合; 构造解码器, 进行词句的预测生成; 采取多阶段 训练策略进行模 型训练。 本发明使用最新提出的 大规模多语言视频描述数据集VATEX, 解决了以 往视频描述只有英语数据集的问题, 使用多特征 融合方法进行编码, 模型训练采 取多阶段训练策 略, 避免了 “曝光偏差 ”问题。 权利要求书3页 说明书7页 附图3页 CN 114677631 A 2022.06.28 CN 114677631 A 1.一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法, 其特征在 于, 包括以下步骤: 步骤1, 从外观、 动作、 语义和音频方面提取多维特征, 以增 强编码器的内容表示能力; 具体包括: 1)对于外观特征, 作用在空间维度上, 包含视频显示的事物对象的信息; 提取外观特征 时首先在ImageNet数据集上使用PNASNet进行预训练, PNASNet是当前图像识别领域的最佳 模型NASNet的改进模型, 预训练完成后输入提取到的帧得到 外观特征; 2)对于动作特征, 作用在时间维度上, 包含视频中的事物对象进行的活动事件的信息; 提取运动特征首先在kinetics ‑600数据集上使用I3D网络进行预训练, 该数据集与VATEX数 据集具有完全相同的数据分布, I3D是基于3D卷积的双流模型, 在行为分类方面有较大的提 高, 预训练完成后输入提取到的帧得到运动特 征; 3)对于音频特征, 使用在Audioset数据集上进行预训练的VGGish网络; 首先, 为每个音 频提取梅尔频谱块; 音频的采样率是16千赫; Mel滤波器的数量为64个; STFT窗口长度为25 毫秒, 顶部 长度为10毫秒; 预训练完成后输入提取的音频 得到音频 特征; 4)对于语义特征, 使用SDN提取高质量的语义特征, SDN是一个具有足够计算复杂度和 输入特征的语义检测网络; 输入视频帧得到语义特 征; 步骤2, 构造编码器, 进行多特 征的融合; 具体包括: 采用低秩多特征融合的方法, 通过将张量和权重并行分解, 利用特征特定的低阶因子 来执行多 特征融合, 避免计算高维的张量, 降低了运算开销, 同时将指数级的时间复杂度降 低到了线性; 1)将多特征融合用公式表示为一个多线性函数: f: V1×V2×…VM→H,其中V1×V2×…VM 是输入特征的向量空间, H是融合后的输出向量空间; 给出向量表示 的集合, 编码M 种不同特征的单一特征信息, 多 特征融合的目标是将单一特征表示集成到一个紧凑的多 特 征表示中, 用于下游任务; 2)为了能够用一个张量来模拟任意特征子集之间的相互作用, 在进行外积之前给每个 单一特征后面加一个1, 因此输入的张量Z通过 单个特征的表示计算得到: 其中 是由m索引的向量 集合的张量外积, zm是附加1的输入表示; 输入张量 通过一个线性层g( ·)产生一个向量表示: 其中W是权 重, b是偏移量; 3)根据低秩多特 征融合方法, 将W看作是dh个M阶张量, 每 个M阶张量可以表示 总是存在一个精确分解成向量的形式: 使得分解有效的最小的R即为张量的秩; 向量的集 合 为原始张量的秩R分解因子; 从一个固定的秩r开始, 用r分解因子 重建低秩的 这些向量可以重组拼接为M个特 征特定的低秩因子, 令权 利 要 求 书 1/3 页 2 CN 114677631 A 2则模态m对应的低秩因子为 则可以用下式重建得到低秩 的权重张量: 4)基于W的分解, 再根据 把原来计算h的式子推导如下: 其中 表示一系列张量的元素积, 即 最终的h即为多模态特征经 过融合得到的单个特 征; 步骤3, 构造解码器, 进行词句的预测生成; 具体包括: 使用top‑down模型构造解码器, top ‑down模型由两层GRU和一个注意力模块组成, 其中 一个GRU进行粗粒度解码, 另一个GRU进行细粒度解码, 最终采用细粒度解码的输出预测下 一时刻的单词; 1)进行粗粒度解码的GRU在t时刻的输入包含两部分, 即前一时刻的隐藏状态 以及 之前时刻所生成的词St‑1所对应的词向量,其输出 如下: 其中, Wes表示训练集中词典对应的词向量矩阵, V为该帧的多模态融合特征, 用于指 导注意力模块 生成的V; 2)进行细 粒度解码的GRU在t时刻输入包含三部分, 即前一时刻的隐藏状态 之前时 刻所生成的词St‑1, St‑2, St‑3所对应的词向量, 及帧特 征Vt, 表示如下: 其在t时刻输出 通过softmax层后输出在词典上的概 率分布p(St); 3)在解码阶段, 采用基于自上而下的描述结构; Attention ‑GRU使用全局视频主题和最 后生成的单词, 来指导时间注 意力模块选择最相关的帧区域; 同时, Language ‑GRU将处理过 的上下文信息组合在一 起, 生成下一个单词; 步骤4, 采取多阶段训练策略进行模型训练; 基于多特征融合及多阶段训练的视频中文 描述生成方法的关键步骤4中,权 利 要 求 书 2/3 页 3 CN 114677631 A 3

PDF文档 专利 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 第 1 页 专利 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 第 2 页 专利 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。