(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211095848.8
(22)申请日 2022.09.08
(71)申请人 南京邮电大 学
地址 210003 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 鲍秉坤 盛业斐 陶明 谭智一
邵曦
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 刘艳艳
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于生成式预训练语言模型的联想文本到
图像生成方法
(57)摘要
本发明公开了一种基于生成式预训练语言
模型的联想文本到图像生成方法, 包括: 基于数
据集对生 成式预训练模型进行微调, 让预训练模
型获得语义保留度好已有文本信息, 得到微调后
的预训练模 型; 将原始数据集中每张图像对应的
十个句子作为微调后的预训练模 型的输入, 得到
模型输出的生成数据集; 对生 成数据集进行约束
处理和语义保留度评估选择, 得到联想文本数据
集; 基于所述联想文本数据集, 利用基于DF ‑GAN
的对抗生 成网络模型, 生 成在文本图像跨模态语
义特征上一致的图像。 本发明综合利用生成式预
训练模型的联想能力和丰富的语义信息, 一定程
度上平衡了了对抗生成网络在文本到图像跨模
态生成任务上文本信息和图像信息不均衡的问
题。
权利要求书3页 说明书11页 附图3页
CN 115393692 A
2022.11.25
CN 115393692 A
1.一种基于生成式预训练语言模型的联想文本 到图像生成方法, 其特 征在于, 包括:
步骤S1、 基于数据集对生成式预训练模型进行微调, 让预训练模型获得语义保留度好
已有文本信息, 得到微调后的预训练模型;
步骤S2、 将原始数据集中每张图像对应的十个句子作为步骤S1获得的微调后的预训练
模型的输入, 得到模型输出 的生成数据集; 对生成数据集进行约束处理和语义保留度评估
选择, 得到联想文本数据集;
步骤S3、 基于步骤S2获得的所述联想文本数据集, 利用基于DF ‑GAN的对抗生成网络模
型, 生成在文本图像跨模态语义特 征上一致的图像。
2.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 所述 步骤S1包括:
步骤S11: 获取数据集, 将数据集中每张图像对应的十个句子编排成句子串;
步骤S12: 将数据集的句子串输入预训练模型进行训练、 微调得到微调后的预训练模
型。
3.根据权利要求2所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 步骤S11中, 将数据集中每张图像对应的十个句子编排 成句子串, 包括: 数据集中
包括多张图像, 每一张图像对应十个句 子; 将每张图像对应的十个句 子按以下规则编排成
句子串:
句子串编排如下: “$句a#句b#句c #...#句9#句10$ ”;
句子串分为两个部分: 第一部分为随机初始化, 句a, 句b, 句c为随机从一张图像对应的
十个句子中初始化的三句话;
第二部分则为剩下句子 的顺序拼接, 其中 “#”、“$”分别为分隔符和起始符, GPT ‑2生成
结构化的句 子串, 分隔符便于拆解生成的句 子串, 起始符用于防止模型生成过长或者过短
的句子串。
4.根据权利要求2所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 步骤S12, 包括:
其中所述预训练模型为GPT ‑2模型; 所述GPT ‑2模型的训练、 微调方法包括:
设给定输入的一个句子串表示 为句子序列[x1,x2,...,xm], m为句子串中第m个句子;
GPT‑2模型在预训练、 微调时的损失函数分别为 L1(X)和L2(X), 公式如下:
其中预训练损失函数L1(X)采用最大似然函数, P()表示条件概率, Θ为的神经网络建
模参数; i 为0,1…k的遍历取值; k小于m, 为滑动窗口 的大小;
微调的过程采用的是有监督学习, 训练样本包括句子序列[x1,x2,...,xm]和以第一个
句子x1作为类标label; GPT ‑2模型微调的过程中根据句子序列[x1,x2,...,xm]预测类标
label, 即为 L2(X);
优化函数L3为L1和L2的加权和:权 利 要 求 书 1/3 页
2
CN 115393692 A
2L3=L2+λL1
其中λ为超参数, L1和L2分别为GPT ‑2模型在预训练、 微调时的损失函数。
5.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 对生成数据集进行约束处 理, 包括:
采用就近原则、 格式正则化和句子 选择对生成数据集进行处 理。
6.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 对生成数据集进行语义保留度评估选择, 包括:
采用bleu指标对生成数据 集进行评估, 其中bleu指标包括同一种类别中不同姿势不同
背景的样本bleua、 区别较大的不同类别其中的样本bleub和视觉特征近似但是属于不同类
别其中的样本bleuc:
Candidates表示生成数据集的句子, reference为原始数据集中的句子, Count表示计
数, Countclip表示分子截断计数, n ‑gram表示出现在r eference中的candidates 中衡量的连
续单词个数为n,n ‑gram’表示candidates中衡量的连续单词个数为n, c,c ′为同时从数据集
中选取的衡量的句子数量; ∑c∈candidates、 ∑c′∈candidates表示包括所有candidates; ∑n‑gram∈c、
∑n‑gram′∈c′表示计算候选变量中的所有匹配的句子数量, 并表示reference中特定变量的个
数; Countclip(n‑gram)表示出现在reference中的candidates中匹配的句子数量; Count(n ‑
gram′)表示n‑gram′在candidates中匹配的句子数量;
分别计算 生成数据集与原 始数据集的三个指标bleua、 bleub和bleuc;
生成数据集与原始数据集的三个指标的比值一致, 则表示三个指标都和 原始数据集语
义一致, 将和原 始数据集语义 一致的生成数据集选择为联想文本数据集。
7.根据权利要求1所述的基于生成式预训练语言模型的联想文本到图像生成方法, 其
特征在于, 所述基于DF ‑GAN的对抗生成网络模型, 包括: 一个预训练过的文本编码器、 一个
生成器和一个判别器;
文本编码器: 联想文本数据集所有的文本经过文本编码器编码, 将输出的句子向量存
入文本编码库;
生成器有两个输入: 文本编码器编码过后的句子向量以及从正态分布中采用的随机噪
声, 随机噪声 经过全连接层转换为设定尺寸, 经过一系列深度语义融合模块生成图像特征,
在每一层的深度语义融合模块中, 该方法将输入的多条句子与当前层级的特征图进行交
互, 计算跨模态注意力机制以区分句 子在不同生成器层中的权重分, 再通过卷积层将图像
特征转换为图像; 其中每一个深度语义融合模块均包括: 上采样层、 残差块和文本 ‑图像特
征融合块;
判别器中使用一系列 下采样层将图像转换为图像特征, 然后 把图像特征与句子向量相
连接, 经过一步式生成来计算对抗损失来保证视 觉真实性和语义 一致性;
生成器和判别器的损失函数如下:权 利 要 求 书 2/3 页
3
CN 115393692 A
3
专利 基于生成式预训练语言模型的联想文本到图像生成方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:28上传分享