全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211095848.8 (22)申请日 2022.09.08 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 鲍秉坤 盛业斐 陶明 谭智一  邵曦  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 刘艳艳 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于生成式预训练语言模型的联想文本到 图像生成方法 (57)摘要 本发明公开了一种基于生成式预训练语言 模型的联想文本到图像生成方法, 包括: 基于数 据集对生 成式预训练模型进行微调, 让预训练模 型获得语义保留度好已有文本信息, 得到微调后 的预训练模 型; 将原始数据集中每张图像对应的 十个句子作为微调后的预训练模 型的输入, 得到 模型输出的生成数据集; 对生 成数据集进行约束 处理和语义保留度评估选择, 得到联想文本数据 集; 基于所述联想文本数据集, 利用基于DF ‑GAN 的对抗生 成网络模型, 生 成在文本图像跨模态语 义特征上一致的图像。 本发明综合利用生成式预 训练模型的联想能力和丰富的语义信息, 一定程 度上平衡了了对抗生成网络在文本到图像跨模 态生成任务上文本信息和图像信息不均衡的问 题。 权利要求书3页 说明书11页 附图3页 CN 115393692 A 2022.11.25 CN 115393692 A 1.一种基于生成式预训练语言模型的联想文本 到图像生成方法, 其特 征在于, 包括: 步骤S1、 基于数据集对生成式预训练模型进行微调, 让预训练模型获得语义保留度好 已有文本信息, 得到微调后的预训练模型; 步骤S2、 将原始数据集中每张图像对应的十个句子作为步骤S1获得的微调后的预训练 模型的输入, 得到模型输出 的生成数据集; 对生成数据集进行约束处理和语义保留度评估 选择, 得到联想文本数据集; 步骤S3、 基于步骤S2获得的所述联想文本数据集, 利用基于DF ‑GAN的对抗生成网络模 型, 生成在文本图像跨模态语义特 征上一致的图像。 2.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 所述 步骤S1包括: 步骤S11: 获取数据集, 将数据集中每张图像对应的十个句子编排成句子串; 步骤S12: 将数据集的句子串输入预训练模型进行训练、 微调得到微调后的预训练模 型。 3.根据权利要求2所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 步骤S11中, 将数据集中每张图像对应的十个句子编排 成句子串, 包括: 数据集中 包括多张图像, 每一张图像对应十个句 子; 将每张图像对应的十个句 子按以下规则编排成 句子串: 句子串编排如下: “$句a#句b#句c #...#句9#句10$ ”; 句子串分为两个部分: 第一部分为随机初始化, 句a, 句b, 句c为随机从一张图像对应的 十个句子中初始化的三句话; 第二部分则为剩下句子 的顺序拼接, 其中 “#”、“$”分别为分隔符和起始符, GPT ‑2生成 结构化的句 子串, 分隔符便于拆解生成的句 子串, 起始符用于防止模型生成过长或者过短 的句子串。 4.根据权利要求2所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 步骤S12, 包括: 其中所述预训练模型为GPT ‑2模型; 所述GPT ‑2模型的训练、 微调方法包括: 设给定输入的一个句子串表示 为句子序列[x1,x2,...,xm], m为句子串中第m个句子; GPT‑2模型在预训练、 微调时的损失函数分别为 L1(X)和L2(X), 公式如下: 其中预训练损失函数L1(X)采用最大似然函数, P()表示条件概率, Θ为的神经网络建 模参数; i 为0,1…k的遍历取值; k小于m, 为滑动窗口 的大小; 微调的过程采用的是有监督学习, 训练样本包括句子序列[x1,x2,...,xm]和以第一个 句子x1作为类标label; GPT ‑2模型微调的过程中根据句子序列[x1,x2,...,xm]预测类标 label, 即为 L2(X); 优化函数L3为L1和L2的加权和:权 利 要 求 书 1/3 页 2 CN 115393692 A 2L3=L2+λL1 其中λ为超参数, L1和L2分别为GPT ‑2模型在预训练、 微调时的损失函数。 5.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 对生成数据集进行约束处 理, 包括: 采用就近原则、 格式正则化和句子 选择对生成数据集进行处 理。 6.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 对生成数据集进行语义保留度评估选择, 包括: 采用bleu指标对生成数据 集进行评估, 其中bleu指标包括同一种类别中不同姿势不同 背景的样本bleua、 区别较大的不同类别其中的样本bleub和视觉特征近似但是属于不同类 别其中的样本bleuc: Candidates表示生成数据集的句子, reference为原始数据集中的句子, Count表示计 数, Countclip表示分子截断计数, n ‑gram表示出现在r eference中的candidates 中衡量的连 续单词个数为n,n ‑gram’表示candidates中衡量的连续单词个数为n, c,c ′为同时从数据集 中选取的衡量的句子数量; ∑c∈candidates、 ∑c′∈candidates表示包括所有candidates; ∑n‑gram∈c、 ∑n‑gram′∈c′表示计算候选变量中的所有匹配的句子数量, 并表示reference中特定变量的个 数; Countclip(n‑gram)表示出现在reference中的candidates中匹配的句子数量; Count(n ‑ gram′)表示n‑gram′在candidates中匹配的句子数量; 分别计算 生成数据集与原 始数据集的三个指标bleua、 bleub和bleuc; 生成数据集与原始数据集的三个指标的比值一致, 则表示三个指标都和 原始数据集语 义一致, 将和原 始数据集语义 一致的生成数据集选择为联想文本数据集。 7.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其 特征在于, 所述基于DF ‑GAN的对抗生成网络模型, 包括: 一个预训练过的文本编码器、 一个 生成器和一个判别器; 文本编码器: 联想文本数据集所有的文本经过文本编码器编码, 将输出的句子向量存 入文本编码库; 生成器有两个输入: 文本编码器编码过后的句子向量以及从正态分布中采用的随机噪 声, 随机噪声 经过全连接层转换为设定尺寸, 经过一系列深度语义融合模块生成图像特征, 在每一层的深度语义融合模块中, 该方法将输入的多条句子与当前层级的特征图进行交 互, 计算跨模态注意力机制以区分句 子在不同生成器层中的权重分, 再通过卷积层将图像 特征转换为图像; 其中每一个深度语义融合模块均包括: 上采样层、 残差块和文本 ‑图像特 征融合块; 判别器中使用一系列 下采样层将图像转换为图像特征, 然后 把图像特征与句子向量相 连接, 经过一步式生成来计算对抗损失来保证视 觉真实性和语义 一致性; 生成器和判别器的损失函数如下:权 利 要 求 书 2/3 页 3 CN 115393692 A 3

PDF文档 专利 基于生成式预训练语言模型的联想文本到图像生成方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于生成式预训练语言模型的联想文本到图像生成方法 第 1 页 专利 基于生成式预训练语言模型的联想文本到图像生成方法 第 2 页 专利 基于生成式预训练语言模型的联想文本到图像生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。