全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210962059.3 (22)申请日 2022.08.11 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 申请人 中国电子科技 集团公司电子科 学研 究院 (72)发明人 余宙 罗同桉 俞俊 袁柳  刘弋锋 许胜新  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种多模态场景图知识增强的对抗式多模 态预训练方法 (57)摘要 本发明公开了一种多模态场景图知识增强 的对抗式多模态预训练方法。 本发明步骤: 1、 构 建图像区域的特征表示及图像先验知 识, 2、 构建 文本及跨模态先验知识, 3、 构建多模态场景图, 4、 构建对抗式噪声生成网络与多模态预训练网 络, 5、 多模态场景图知识增强的对抗式预训练。 本发明通过从图像和文本两个模态中提取先验 知识, 以此构建多模态场景图, 并构建以多模态 场景图知识增强的多模态自注意力网络为核心 的对抗噪声生成 网络, 为输入的图文对数据生成 噪声扰动, 与多模态预训练网络进行对抗式多模 态预训练, 最终在下游任务上得到了更好的性能 表现。 权利要求书6页 说明书13页 附图1页 CN 115331075 A 2022.11.11 CN 115331075 A 1.一种多模态场景图知识增强的对抗式多模态预训练方法, 其特征在于包括如下步 骤: 步骤(1): 构建图像区域的特 征表示及图像先验知识; 步骤(2): 构建文本及跨模态先验知识; 步骤(3): 构建多模态场景图; 步骤(4): 构建对抗式噪声生成网络与多模态预训练网络; 步骤(5): 多模态场景图知识增强的对抗式预训练。 2.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法, 其 特征在于步骤(1)所述的构建图像区域的特 征表示及图像先验知识, 实现如下: 对于数据集中的每一张图像, 使用训练好的目标检测网络抽取图像中包含的一系列物 体和它们对应的视觉特征、 空间位置, 并作为图像区域的特征表示; 通过物体的空间位置计 算得到图像区域之 间的相对位置信息以及图像区域之 间的相对空间关联信息, 将相对位置 信息并作和相对空间关联信息为图像的先验知识。 3.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法, 其 特征在于步骤(2)所述的构建文本及跨模态先验知识, 实现如下: 对于数据集中的每组图文对, 使用训练好的场景图生成器提取文本描述中的对象词集 合、 属性词集合和关系词集合, 并根据在数据集上统计的共现频率记录每个对 象词与其相 关的属性词、 关系词之间的语义关联, 这些语义关联构成了文本先验知识; 对于数据集中的每组图文对, 对每个图像区域都计算其目标类目对应的类别文本与每 个对象词之 间的语义相似度, 并将语义相似度作为图像区域和文本词语之 间的语义关联信 息, 并作为 跨模态先验知识的表示。 4.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法, 其 特征在于步骤(3)所述的构建多模态场景图, 实现如下: 多模态场景图由图像场景图、 文本场景图以及跨模态关联图构成; 其中图像场景图中 的顶点为图像区域, 边的权重是图像先验知识的量化表示; 文本场景图中的顶点是文本词 语, 边的权重是文本先验知识的量化表示; 跨模态关联图的顶点是图像区域和文本词语, 边 的权重是跨模态先验知识的量 化表示; 最终的多模态场景图将由一个邻接矩阵表示。 5.根据权利要求1或2所述的一种 多模态场景图知识增强的对抗式多模态预训练方法, 其特征在于步骤(1)进一 步实现如下: 对于数据集中的每一张图像, 使用在Visual  Genome数据集上训练好的Faster  R‑CNN 目标检测网络抽取图像中包含的至多M个物体和它们对应的空间位置, 其中第m个物体的空 间位置表示为 视觉特征表示为 预测的物体类目表示为 其中位 置坐标和视 觉特征将作为图像区域的特 征表示; 通过任意两个区域框之间的相对位置进行建模来生成相对位置关系信息; 将第i个对 象的空间位置定义为(xi, yi, wi, hi), 该四维坐标分别表示对象的中心点横纵坐标、 宽、 高; 第i个对象和第j个对象之间的相对空间关系特 征表示为 具体公式如下: 权 利 要 求 书 1/6 页 2 CN 115331075 A 2通过任意两个区域框之间的I oU来表示相对空间关联信息, 具体公式如下: 6.根据权利要求5所述的一种多模态场景图知识增强的对抗式多模态预训练方法, 其 特征在于步骤(2)具体实现如下: 对于数据集中的每组图文对, 使用训练好的场景图生成器提取文本描述中的对象词集 合Wobj、 属性词集合Wattr和关系词集合Wrel, 并根据在全数据集上 的统计的共现频率记录每 个对象词wi∈Wobj和与其相关的属性词wj∈Wattr之间的语义关联 以及每个对象词 wi∈Wobj和与其相关的关系词wk∈Wrel之间的语义关联 具体公式如下: 其中, ni、 nj和nk分别表示词语wi、 wj和wk在数据集中出现的次数, ni, j和ni, k分别表示词 语wi和wj、 wi和wk在数据集中共同出现的次数; 使用预先训练好的词向量模型分别将每个图像区域mi的目标类目 听对应的类 别文本与每个对象词wj∈Wobj转换为包含语义信息的词向量 利用余弦相似度计算两者之间的相对语义关联信息 具体公式如下: 7.根据权利要求6所述的一种多模态场景图知识增强的对抗式多模态预训练方法, 其 特征在于步骤(3)具体实现如下: 3‑1.构建图像场景图 对于数据集中的每张 图像, 图像场 景图Gi=<Vi, Ei, Si>将用来编码图像模态内的知识, 顶点集Vi包含图像中的所有区域, 边集Ei包含顶点之间的成对关系, 相似度集Si表示边对应 的由图像区域之间的相 对位置信息和相对空间关联信息表示的相 似度; 对于某条边ei, j的 相似度si, j, 计算公式如下: 其中, Linear是线性变 换; 图像场景图Gi使用M×M的邻接矩阵表示, 其中M表示图像场景 图的顶点即图像区域的个数, 矩阵中的第i行第 j列的元素即为顶 点i与顶点j之 间的相似度 si, j; 3‑2.构建文本场景图 对于数据集中的每条文本, 文本场 景图Gt=<Vt, Et, St>将用来编码文本模态内的知识, 顶点集Vt包含文本中的所有词语, 边集Et包含顶点之间的成对关系, 相似度集St表示边对应 的由文本词语之间的语义关联信息表示的相似度; 对于某条边ei, j的相似度si, j, 由语义关 联信息 表示; 同样地, 文本场景图Gt使用N×N的邻接矩阵表示, 其中N表示文本场景图的权 利 要 求 书 2/6 页 3 CN 115331075 A 3

PDF文档 专利 一种多模态场景图知识增强的对抗式多模态预训练方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态场景图知识增强的对抗式多模态预训练方法 第 1 页 专利 一种多模态场景图知识增强的对抗式多模态预训练方法 第 2 页 专利 一种多模态场景图知识增强的对抗式多模态预训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。