全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210963668.0 (22)申请日 2022.08.11 (71)申请人 中国科学院上海高等研究院 地址 201210 上海市浦东 新区海科路9 9号 (72)发明人 黄俊 王晓艺 魏鑫燏  (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 牛莎莎 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/383(2019.01) G06F 40/30(2020.01) G06N 5/04(2006.01) G06N 20/00(2019.01) (54)发明名称 基于模态增强的图像描述模型训练方法及 图像描述方法 (57)摘要 本发明提供基于模态增强的图像描述模型 训练方法及图像描述方法, 其中, 该模型训练方 法于执行单次模型训练时, 包括: 获取当前训练 数据中的图像数据, 提取所述图像数据的图像区 域特征; 获取所述当前训练数据中的文本数据; 对所述文本数据中的各单词, 依次执行基于模态 信息增强的上下文推理过程, 以获得对应的语义 推理信息; 基于各单词对应的所述语义推理信 息, 和当前图像的语义标签信息, 构建模型的交 叉熵损失, 以基于该交叉熵损失对图像描述模型 进行优化, 可以充分挖掘图像视觉特征和文本语 言特征之间的关联性, 从而增强模型推理能力, 提高模型理解多 模态语义的准确性。 权利要求书3页 说明书13页 附图5页 CN 115238118 A 2022.10.25 CN 115238118 A 1.一种基于模态增强的图像描述模型训练方法, 其特征在于, 基于训练数据和与所述 训练数据对应的语义标签信息, 对图像描述模型重复执行模型训练过程, 以获得训练后的 图像描述模型; 其中, 所述训练数据包括图像数据和与图像数据关联的文本数据; 所述文本 数据中包括预 先标定的各 单词; 于执行单次所述模型训练过程时, 包括: 基于当前训练数据中的图像数据, 提取 所述图像数据的图像区域特 征; 基于所述当前训练数据中的文本数据; 对所述文本数据中的各单词, 依次执行基于模 态信息增强的上 下文推理过程, 以获得 各单词对应的语义推理信息; 基于各单词对应的所述语义推理信息, 和当前图像的语义标签信息, 构建所述当前文 本数据的交叉熵损失, 以基于该交叉熵损失对所述图像描述模型进行优化; 更新所述当前训练数据, 以基于更新后的所述当前训练数据执行下一 次所述模型训练 过程, 直至退 出。 2.根据权利要求1所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述图 像描述模型包括隐藏状态特征记忆池和视觉注意力特征记忆池; 于执行单次所述基于模态 信息增强的上 下文推理过程时, 包括: 获取当前 单词的隐藏状态特 征和视觉注意力特 征; 基于当前单词的所述隐藏状态特征和所述视觉注意力特征, 对应更新所述隐藏状态特 征记忆池和所述视觉注意力特征记忆池, 以获得当前的 隐藏状态特征序列和当前的视觉注 意力特征序列; 获取所述当前视觉注意力特征序列的序列特征; 基于该序列特征、 当前单词的词嵌入 特征, 构建当前单词的隐藏状态特 征查询向量; 基于当前单词的所述隐藏状态特征查询向量和所述隐藏状态特征, 构建当前单词的多 模态特征查询向量; 对所述当前隐藏状态特征序列执行时间和语义增强, 以获取增强后的隐藏状态特征序 列; 和对所述当前视觉注意力特征序列执行时间和语义增强, 以获取增强后的视觉注意力 特征序列; 基于所述增强后的隐藏状态特征序列和所述增强后的视觉注意力特征序列, 获得当前 单词的多模态特征序列; 基于当前单词的所述多模态特征序列, 和所述当前单词的多模态 特征查询向量, 采用注意力机制获取当前 单词的上 下文推理特 征; 基于当前单词的所述上下文推理特征, 和当前单词的所述视觉注意力特征, 获取当前 单词的语义推理信息 。 3.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述获 取当前单词的隐藏状态特 征和视觉注意力特 征的实现方式, 包括: 获取上一单词对应的隐藏状态特 征和获取当前 单词的词嵌入特 征; 基于当前单词的所述词嵌入特征、 所述图像区域特征, 和上一单词对应的所述 隐藏状 态特征, 获取当前 单词的隐藏状态特 征; 以及, 基于当前单词的隐藏状态特征和所述图像区域特征, 采用注意力 机制获取当前单词的 视觉注意力特 征。 4.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述基权 利 要 求 书 1/3 页 2 CN 115238118 A 2于当前单词的所述隐藏状态特征和所述视觉注意力特征, 对应更新所述隐藏状态特征记忆 池和所述视 觉注意力特 征记忆池的实现方式, 包括: 将当前单词的所述隐藏状态特征输入至所述隐藏状态特征记忆池的顶层存储, 并将所 述隐藏状态特 征记忆池最底层存 储的所述隐藏状态特 征删除; 和, 将当前单词的所述视觉注意力特征输入至所述视觉注意力特征记忆池的顶层存储, 并 将所述视 觉注意力特 征记忆池最底层存 储的所述视 觉注意力特 征删除。 5.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述对 所述当前隐藏状态特 征序列执 行时间和语义增强, 包括: 基于各所述隐藏状态特征于所述当前隐藏状态特征序列中的序列位置, 采用第 一位置 编码器, 获取各所述隐藏状态特征的时序信息; 将各所述隐藏状态特征的时序信息, 和所述 当前单词的词嵌入特 征, 叠加至对应的所述隐藏状态特 征中; 以及, 所述对所述当前视 觉注意力特 征序列执 行时间和语义增强, 包括: 基于各所述视觉注意力特征于所述当前视觉注意力特征序列中的序列位置, 采用第 二 位置编码器, 获取各所述视觉注意力特征 的时序信息; 将各所述视觉注意力特征 的时序信 息, 和所述当前 单词的词嵌入特 征, 叠加至对应的所述视 觉注意力特 征中。 6.根据权利要求5所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述第 一位置编码器和所述第二 位置编码器相同, 均包括: 其中, pi表示特征于对应特征序列中的相对位置; j是位置编码表征的维度, 当j是奇数 时, f()为si n(), 当j是偶数, f()为cos()。 7.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述基 于当前单词的所述多模态特征序列和所述当前单词的多模态特征查询向量, 采用注意力机 制获取当前 单词的上 下文推理特 征的实现方式, 包括: 基于当前 单词的所述多模态特 征序列, 采用自注意力机制获得新的多模态特 征序列; 基于所述新的多模态特征序列, 和所述当前单词的多模态特征查询向量, 采用 传统注 意力机制获取当前 单词的上 下文推理特 征。 8.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 所述构 建当前单词的多模态特 征查询向量的实现方式, 包括: 采用门控线性单元, 将所述当前单词的隐藏状态特征查询向量和所述当前单词的隐藏 状态特征作为所述门控线性单 元的输入, 构建所述当前 单词的多模态特 征查询向量。 9.根据权利要求2所述的基于模态增强的图像描述模型训练方法, 其特征在于, 于执行 单次所述模型训练过程时, 还 包括: 依次执行各所述基于模态信 息增强的上下文推理过程, 以获取各单词对应的语义对齐 损失; 基于各单词对应的语义对齐损 失, 获取所述当前文本数据的语义对齐损 失; 基于所述 当前文本数据的交叉损失和语义对齐损失, 构建所述当前文本数据的模型总损失, 以基于 该模型总损失, 对所述图像描述模型进行优化; 其中, 于次执行单次所述基于模态信息增强的上下文推理过程中, 在获取所述增强后权 利 要 求 书 2/3 页 3 CN 115238118 A 3

PDF文档 专利 基于模态增强的图像描述模型训练方法及图像描述方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于模态增强的图像描述模型训练方法及图像描述方法 第 1 页 专利 基于模态增强的图像描述模型训练方法及图像描述方法 第 2 页 专利 基于模态增强的图像描述模型训练方法及图像描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。