全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210368717.6 (22)申请日 2022.04.08 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 俞俊 高鹏昺 余宙  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 16/9032(2019.01) G06F 16/9035(2019.01) (54)发明名称 一种基于跨模态预训练特征增强的视觉问 答方法 (57)摘要 本发明公开了一种基于跨模态预训练特征 增强的视觉问答方法。 本发明建模相对空间关系 特征, 利用语义对齐的局部/全局视觉特征和语 言特征, 结合特征增强模块以及深度堆叠的语言 侧SA模块、 视觉侧RGA模块来获得更加丰富的复 合语义信息, 最后通过局部/全局特征融合模块 输出综合特征进而用于预测答案。 该方法在视觉 问答任务上取得了显著性的提升效果, 超越了众 多使用传统物体特征或网格特征作为视觉特征 的方法, 甚至优于许多使用视觉 ‑语言“预训练‑ 微调”范式的模型。 权利要求书8页 说明书13页 附图1页 CN 114663677 A 2022.06.24 CN 114663677 A 1.一种基于跨模态预训练特 征增强的视 觉问答方法, 其特 征在于, 包括如下步骤: 步骤(1): 数据集的划分; 首先对视觉问答的图像集和问题答案标注集进行训练集、 验证集、 测试集的划分; 步骤(2): 构建问题的局部和全局语言特 征; 对于一个输入问题, 首先根据分词表对其进行分词并填充至固定的分词数量T, 然后使 用预训好的词向量模型, 将问题的分词表示转换为包含语义信息的词嵌入 再通过跨模态预训练好的CLIP语言编码器得到局部语言特征 T为语言特征 单词数量, dt为单个单词语言特征的维度; 从局部语言特征Qloc中选取问题 分词表示中结束 符<EOS>位置处l∈[1, T]对应的单词特征 通过一个线性变换得到问题的全局语 言特征 步骤(3): 构建图像的局部和全局视 觉特征; 对于一张输入图像, 首先对其进行预处理, 采用 双立方插值将图像缩放至固定的正方 形尺寸P×P, 然后对图像像素进行归一化处理; 使用跨模态预训练好的CLIP视觉编码器提 取出最后一层的特征图 该特征图经过形状变换成网格特征形式作为图像 的局部视觉特征 G为网格数量 dv为单个网格特征的维度; 局部 视觉特征Vloc进一步经过注意力池化机制和线性变换 得到全局视 觉特征 步骤(4): 构建相对空间关系特 征; 针对一张输入图像的局部视觉特征(网格特征), 计算所有网格的空间坐标 G为网格数量; 对所有网格两 两计算得到相对空间关系特 征 步骤(5): 构建深度神经网络; 所述的深度神经网络包括语言特征增强模块、 视觉特征增强模块、 语言侧深度堆叠SA 模块、 视觉侧深度堆叠RGA模块、 语言特征注意力消 融模块、 视觉特征注意力消 融模块、 局 部/全局特征融合模块和答案概 率分布预测模块; 局部语言特征Qloc通过语言特征增强融合模块得到融合局部语言特征 局部视觉特征Vloc通过视觉特征增强融合模块得到 融合局部视觉特征 融合 局部语言特征Qfuse通过语言侧深度堆叠SA模块得到复合语言特征 融合局 部视觉特征Vfuse通过视觉侧深度堆叠RGA模块得到复合视觉特征 复合语言 特征Q′fuse经过语言特征注意力消融模块得到综合局部语言特征 复合视觉特征 V′fuse经过视觉特征注意力消融模块得到综合局部视觉特征 综合局部语言/视 觉特征qloc、 vloc和全局语言/视觉特征qglo、 vglo进一步通过局部/全局特征融合模块输出综 合特征 通过答案概率分布预测模块的答案线性投影矩阵 最 终输出预测答案概 率 A为候选答案集大小; 步骤(6): 构建损失函数; 将步骤(5)中输出的预测答案概率分布同对应的正确答案分数分布一起输入到相应的权 利 要 求 书 1/8 页 2 CN 114663677 A 2损失函数中, 计算得到损失函数值; 步骤(7): 训练模型; 深度神经网络模型在步骤(1)中的训练集上进行训练, 每轮在验证集上验证模型性能; 根据步骤(6)中的损失函数产生的损失函数值利用反向传播算法对深度神经网络模型参数 进行梯度回传, 不断优化, 直至整个网络模型收敛; 步骤(8): 答案预测值计算; 在模型验证或测试阶段, 根据深度神经网络的预测答案概率分布 选择概率值最大的 索引对应的单词作为预测答案 。 2.根据权利要求1所述的一种基于跨模态预训练特征增强的视觉问答方法, 其特征在 于, 步骤(1)所述的数据集的划分, 具体如下: 视觉问答任务所采用的数据集为VQA ‑v2, 其图像均来自MS ‑COCO数据 集; 将数据 集划分 为train、 val、 test三个子集, 三 者的数据量占比大致 为40%、 20%、 40%。 3.根据权利要求2所述的一种基于跨模态预训练特征增强的视觉问答方法, 其特征在 于, 步骤(2)所述的构建问题的局部和全局语言特 征, 具体如下: 2‑1.问题预处 理; 对于一个输入问题, 首先根据BPE分词 表对问题文本进行分词, 并且在头部拼接文本起 始符<SOT>, 在尾部拼接文本结束符<E OT>, 然后在结束符尾部填充0至固定的分词数量T, 得 到问题的分词表示 每一个分词 的值为BPE分词表中的单词索引; 2‑2.问题词嵌入; 使用预训好的词向量模型, 将每个分词转换为包含语义信息的词嵌入 dt 为单个单词的词嵌入维度, 所有分词拼接得到问题的词嵌入表示 2‑3.问题局部语言特 征提取; 问题的词嵌入表示通过跨模态预训练好的CLIP模型中的语言编码器编码得到局部语 言特征 T为语言特征单词数量, dt为单个单词语言特征的维度, 具体公式如 下; Qloc=CLIPTE(Qemb)          (公式1) 2‑4.问题全局语言特 征提取; 在局部语言特征Qloc中选取问题分词表示中结束符<EOS>位置处l∈[1, T]对应 的单词 特征 通过一个线性投影矩阵 线性变换得到问题的全局语言特 征 具体公式如下: 4.根据权利要求3所述的一种基于跨模态预训练特征增强的视觉问答方法, 其特征在 于, 步骤(3)所述的构建图像的局部和全局视 觉特征, 具体如下: 3‑1.图像预处 理; 对于一张输入图像, 首先对其进行预处理, 采用 双立方插值将图像缩放至固定的正方 形尺寸P×P, 得到缩放后的图像 然后对图像像素按照RGB三个通道进行归一权 利 要 求 书 2/8 页 3 CN 114663677 A 3

PDF文档 专利 一种基于跨模态预训练特征增强的视觉问答方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨模态预训练特征增强的视觉问答方法 第 1 页 专利 一种基于跨模态预训练特征增强的视觉问答方法 第 2 页 专利 一种基于跨模态预训练特征增强的视觉问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。