全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210579474.0 (22)申请日 2022.05.25 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 颜成钢 丛高翔 李亮 徐常亮  张深源 王仲远 高婷婷 朱尊杰  陈楚翘 高宇涵  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06T 11/60(2006.01) G06V 10/44(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于长短期跨模态一致性推理的迭代文本 图像生成方法 (57)摘要 本发明公开了基于长短期跨模态一致性推 理的迭代文本图像生成方法。 首先 获取文本指令 意图的特征向量表示; 然后提取源视觉图像的长 期视觉特征信息和短期视觉特征信息; 再构建目 标图像生 成器, 通过目标图像生成器输出目标图 像; 将文本指令信息, 长短期源视觉特征和生成 的目标图像共同输入到长短期跨模态判别器, 分 别输出长期跨模态的一致性得分和短期跨模态 的一致性得分。 本发明通过长短期的一致性推 理, 模型可以更好地在语义空间对齐物体的视觉 属性和相关地文本指令, 以及更好地构建物体与 物体之间的相对位置关系, 进一步地保证了用户 文本与所述图像的跨模态一致性, 提高了生成质 量。 权利要求书3页 说明书7页 附图2页 CN 114943790 A 2022.08.26 CN 114943790 A 1.基于长短期跨模态一致性推理的迭代文本图像生成方法, 其特征在于, 包括如下步 骤: 步骤1: 获取迭代序列中的文本指令和对应的真实图像, 文本指令使用Glove模型进行 预处理, 真实图像用于后续的对抗训练; 步骤2: 将预处理好的文本指令输入到指令编码器, 获取迭代过程中的文本指令意图的 特征向量表示; 步骤3: 从迭代视 觉场景中提取源视 觉图像的长期视 觉特征信息和短期视 觉特征信息; 步骤4: 构建目标图像生成器, 通过目标图像生成器输出目标图像; 所述目标图像生成器, 分别将长短期视觉特征与文本指令进行夸模态融合, 然后再利 用图像解码器解码多模态的合成表征, 并生成128x128的目标图像; 步骤5: 将步骤2提取的文本指令信息, 步骤3获得的长短期源视觉特征, 步骤4生成的目 标图像共同输入到长短期跨模态判别器, 分别输出长期跨模态的一致性得分和短期跨模态 的一致性得分; 步骤6: 构建长短期一 致性对抗损失; 所述长短期一致性对抗损 失分为目标图像生成器的损失函数和长短期跨模态判别器 的损失函数; 通过最小化 目标图像生成器的损失函数, 保证生成目标图像的质量和良好的 逻辑性; 通过最小化长短期跨模态判别器的损失函数, 来确保模型能够判别长短期视觉变 化和用户意图之间的跨模态一 致性; 步骤7: 通过交替地训练目标图像生成器和长短期跨模态判别器中的模型参数, 当长短 期跨模态一致性对抗损失函数达到最优解时, 通过训练得到的目标图像生成器将输出所需 的目标图像。 2.根据权利要求1所示的基于长短期跨模态一致性推理的迭代文本图像生成方法, 其 特征在于, 所述步骤2中, 所述的指令编码器具有一种层次化文本信息提取结构, 包括单词 级的文本编码器和句子级的文本编码器; 所述单词级的文本编码器通过双向GRU对当前文本指令进行编码; 其中, dt代表了双向GRU最后一个隐藏状态, 也代表了当前指令的语义表示; n表示预处 理之后每 个句子的单词个数; 表示整条句子中每 个单词的特 征嵌入向量; 所述句子级 文本编码器通过一个单向GRU对当前指令以及历史文本指令进行编码; ht=GRU(dt,ht‑1)           (2) 其中, ht代表了当前用户指令意图的表示; ht‑1代表了历史指令信息 。 3.根据权利要求1所示的基于长短期跨模态一致性推理的迭代文本图像生成方法, 其 特征在于, 所述长期 视觉特征信息和短期 视觉特征信息, 利用一个浅层的卷积神经网络CNN 从源视觉图像中获取; 其中, It‑1代表t‑1时刻的源视觉图像; It‑m代表t‑m时刻的源视觉图像, m是一个可设置权 利 要 求 书 1/3 页 2 CN 114943790 A 2的超参数, m越大代 表长期时间跨度就越大。 4.根据权利要求1或2或3所示的基于长短期跨模态一致性推理 的迭代文本图像生成方 法, 其特征在于, 步骤4具体方法如下: 所述的目标图像生成器中, 分别将步骤3得到的长期视觉特征信息和短期视觉特征信 息与文本指令进行融合, 然后再利用图像解码器将融合后的合成特 征解码成目标图像: 步骤4.1: 融合短期视觉 特征与用户的文本指令; 首先将语义表示ht通过多层感知(MLP) 投影到视觉空间中, 然后再语义空间中按空间维度进行元素加法得倒融合后的跨模态特 征: 其中, 代表融合语义信息和短期视 觉表示的合成特 征; 步骤4.2: 相似地, 再将长期视 觉特征与文本指令进行多模态特 征融合: 其中, 代表融合语义信息和长期视 觉表示的合成特 征; 步骤4.3: 将得到 的 和 输入到图像解码器中生成所需的目标图像; 图像解码器由 堆叠的ResNet 残差上采样层和条件批量归一 化层构成。 5.根据权利要求4所示的基于长短期跨模态一致性推理的迭代文本图像生成方法, 其 特征在于, 所述步骤5中, 长短期跨模态判别器根据步骤2提取的当前文本指令, 步骤3提取 的长短期源视觉特征, 以及步骤4生成的目标图像, 来计算长期跨模态的一致性得分和短期 跨模态的一 致性得分, 该 过程包括以下步骤: 步骤5.1: 将步骤4.3生成的目标图像输入到一个卷积神经网络中, 来提取目标图像的 视觉特征; 步骤5.2: 将步骤3获得的短期视觉特征信息和步骤5.1获得的目标视觉特征进行元素 级减法来提取差值, 以获得短期 视觉特征变化; 然后将步骤2 提取的用户指 令和短期 视觉变 化输入到 短期跨模态投影模块SCP, S CP遵循CGANs的投影判别器的设计, 首先通过一个全连 接层将视觉特征投影到与文本指令相同的空间维度, 然后再与文本指令进行点积操作, 最 终计算出短期一 致性得分; 其中, 表示短期视觉特征变化; ht表示当前的文本指令特征; fa1(.)和fa2(.)分别为 两个多层感知机, 负责将视觉特征投影到与ht相同的特征维度上; 为短期跨模 态一致性得分; 步骤5.3: 与步骤5.2类似, 通过按元素相减方法和长期跨模态投影模型LCP, 分别获得 长期一致性变化和 长期跨模态一致性得分; LCP同样也遵循CGANs 的投影判别器的设计, 通 过投影和点积 操作得到 长期视觉特征信息和文本指令的一 致性得分; 权 利 要 求 书 2/3 页 3 CN 114943790 A 3

PDF文档 专利 基于长短期跨模态一致性推理的迭代文本图像生成方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于长短期跨模态一致性推理的迭代文本图像生成方法 第 1 页 专利 基于长短期跨模态一致性推理的迭代文本图像生成方法 第 2 页 专利 基于长短期跨模态一致性推理的迭代文本图像生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。