全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211025190.3 (22)申请日 2022.08.25 (71)申请人 有米科技股份有限公司 地址 510006 广东省广州市番禺区小谷围 街青蓝街26号1701 (72)发明人 黄于晏 陈畅新  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 江银会 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 16/783(2019.01) G06F 16/75(2019.01) G06V 10/80(2022.01) (54)发明名称 基于视频辅助的文本重构模型训练方法及 装置 (57)摘要 本发明公开了一种基于视频辅助的文本重 构模型训练方法及装置, 该方法包括: 根据确定 出的所有训练样本, 训练待训练文本模型, 得到 训练后文本模 型, 并判断训练后文本模型是否收 敛; 其中, 在训练待训练文本模型时, 对于任一训 练样本, 待训练文本模型包括的特征融合层的输 入内容包括该训练样本中样本文本对应的文本 特征向量 以及预先生成的该样本文本对应的视 频特征向量; 若是, 则将训练后文本模型确定为 文本重构模型。 可见, 实施本发明能够通过视频 特征向量的辅助训练出文本重构 模型, 不仅有利 于用户通过文本重构模型快速地制作出视频文 本, 无需对其进行反复修正, 还有利于提高所生 成的视频文本与视频之间的匹配度, 满足用户对 视频文本的制作需求。 权利要求书3页 说明书17页 附图4页 CN 115358329 A 2022.11.18 CN 115358329 A 1.一种基于 视频辅助的文本 重构模型训练方法, 其特 征在于, 所述方法包括: 确定目标训练样本集合; 所述目标训练样本集合包括若干个目标训练样本, 且每个所 述目标训练样本 至少包括样本文本; 根据所有所述目标训练样本, 对待训练文本模型执行模型训练操作, 得到训练后文本 模型, 并判断所述训练后文本模型是否收敛; 其中, 在 对所述待训练文本模型执行所述模型 训练操作时, 对于任一所述 目标训练样本, 所述待训练文本模型包括的特征融合层的输入 内容包括该目标训练样本中样本文本对应的文本特征向量以及预先生成的该样本文本对 应的视频 特征向量; 当判断结果为是时, 将所述训练后文本模型确定为文本重构模型; 所述文本重构模型 用于对待生成文本的目标文本素材进 行文本内容补充, 以生成与所述目标文本素材相匹配 的文本。 2.根据权利要求1所述的基于视频辅助的文本重构模型训练方法, 其特征在于, 所述根 据所有所述目标训练样本, 对待训练文本模型执行模型训练操作, 得到训练后文本模型, 包 括: 将所有所述目标训练样本输入至待训练文本模型中, 并通过所述待训练文本模型的嵌 入层, 对每个所述 目标训练样本所包括的所述样本文本执行文本 向量转换操作, 得到每个 所述目标训练样本对应的文本特征向量; 每个所述目标训练样本对应的文本特征向量中均 存在对应的被掩码向量内容; 对于输入的每个所述目标训练样本, 通过所述待训练文本模型的特征融合层, 对该目 标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作, 得到该目 标训练样本对应的融合后特 征向量; 对于输入的每个所述目标训练样本, 通过所述待训练文本模型的预测重构层, 对该目 标训练样本对应的融合后特征向量中的所述被掩码向量内容进行预测重构, 得到该目标训 练样本对应的预测重构向量内容。 3.根据权利要求2所述的基于视频辅助的文本重构模型训练方法, 其特征在于, 所述通 过所述待训练文本模型的嵌入层, 对每个所述目标训练样本所包括的所述样本文本执行文 本向量转换操作, 得到每 个所述目标训练样本对应的文本特 征向量, 包括: 对于输入的每个所述目标训练样本, 通过所述待训练文本模型的嵌入层, 对该目标训 练样本中的所述样本文本执行字拆分操作, 得到所述样本文本的所有目标字, 并对所述样 本文本的所有 所述目标字执行字向量转换操作, 得到该目标训练样本对应的所有字特征向 量; 对于输入的每个所述目标训练样本, 对该目标训练样本对应的所有所述字特征向量执 行拼接操作, 得到该目标训练样本对应的所有句特征向量, 并根据该目标训练样本对应的 所有所述句特 征向量, 确定该目标训练样本对应的待定文本特 征向量; 对于输入的每个所述目标训练样本, 根据预设的掩码参数, 对该目标训练样本对应的 待定文本特征向量中与所述掩码参数相匹配的向量内容进 行掩码, 得到该目标训练样本对 应的文本特 征向量。 4.根据权利要求3所述的基于视频辅助的文本重构模型训练方法, 其特征在于, 所述对 于输入的每个所述 目标训练样本, 通过所述待训练文本模型 的特征融合层, 对该目标训练权 利 要 求 书 1/3 页 2 CN 115358329 A 2样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作, 得到该目标训练 样本对应的融合后特 征向量, 包括: 对于输入的每个所述目标训练样本, 通过所述待训练文本模型的特征融合层, 对该目 标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行拼接操作, 得到该目 标训练样本对应的拼接后特征向量, 并对该目标训练样本对应的拼接后特征向量进行第一 维度变换操作, 得到目标训练样本对应的变换后特征向量; 根据预先确定出 的视频特征参 数, 对该目标训练样本对应的变换后特征向量执行向量平均操作, 得到该目标训练样本对 应的平均后特 征向量, 作为该目标训练样本对应的融合后特 征向量。 5.根据权利要求3或4所述的基于视频辅助的文本重构模型训练方法, 其特征在于, 在 所述对于输入的每个所述 目标训练样本, 通过所述待训练文本模型 的特征融合层, 对该目 标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作, 得到该目 标训练样本对应的融合后特 征向量之前, 所述方法还 包括: 获取由所述嵌入层预先生成的每个所述目标训练样本中样本文本所对应的视频特征 向量; 根据所有所述目标训练样本中样本文本对应的文本特征向量的第一维度特征信息以 及对应的所述视频特征向量的第二维度特征信息, 判断所有 所述目标训练样本对应的文本 特征向量与分别对应的所述视频特征向量是否均相匹配; 每个所述目标训练样本中样本文 本对应的文本特征向量的第一维度特征信息以及对应的所述视频特征向量的第二维度特 征信息均包括对应的维度类型、 维度数量以及维度顺序中的至少一种; 当判断结果为否时, 从所有所述目标训练样本 中样本文本所对应的视频特征向量中确 定出与对应的所述文本特征向量不相匹配的所有待处理视频特征向量, 并根据所有所述待 处理视频特征向量对应的文本特征向量的第一维度特征信息, 对所有 所述待处理视频特征 向量执行第二维度变换操作, 得到变换后的所有所述待处理视频特征向量; 变换后的所有 所述待处 理视频特征向量均 与对应的所述文本特 征向量相匹配; 根据变换后的所有所述待处理视频特征向量, 更新所有所述目标训练样本 中样本文本 所对应的视频特征向量, 并触发执行所述的对于输入的每个所述 目标训练样本, 通过所述 待训练文本模型的特征融合层, 对该目标训练样本对应的文本特征向量与预先对应生成的 视频特征向量执 行融合操作, 得到该目标训练样本对应的融合后特 征向量的操作。 6.根据权利要求5所述的基于视频辅助的文本重构模型训练方法, 其特征在于, 所述对 于输入的每个所述 目标训练样本, 通过所述待训练文本模型 的预测重构层, 对该目标训练 样本对应的融合后特征向量中的所述被掩码向量内容进行预测重构, 得到该目标训练样本 对应的预测重构向量内容, 包括: 对于输入的每个所述目标训练样本对应的融合后特征向量中的所述被掩码向量内容 执行向量秩序变换操作, 以更新每个所述目标训练样本对应的融合后特征向量中的所述被 掩码向量内容; 将更新后的所有所述目标训练样本对应的融合后特征向量中的所述被掩码向量内容 输入至所述待训练文本模型的预测重构层中, 以使所述待训练文本模型的预测重构层执行 如下操作: 对于每个所述 目标训练样本, 根据该目标训练样本对应的融合后特征向量中的 所述被掩码向量内容, 提取该目标训练样本的语义特征信息, 并根据该目标训练样本的语权 利 要 求 书 2/3 页 3 CN 115358329 A 3

PDF文档 专利 基于视频辅助的文本重构模型训练方法及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视频辅助的文本重构模型训练方法及装置 第 1 页 专利 基于视频辅助的文本重构模型训练方法及装置 第 2 页 专利 基于视频辅助的文本重构模型训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。