全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210431002.0 (22)申请日 2022.04.22 (71)申请人 北京字跳网络技 术有限公司 地址 100190 北京市海淀区紫金 数码园4号 楼2层0207 (72)发明人 龚笠 吴新维  (74)专利代理 机构 北京植德律师事务所 1 1780 专利代理师 唐华东 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称 文本生成方法、 装置、 电子设备和存 储介质 (57)摘要 本公开提供一种文本生成方法、 装置、 电子 设备和存储介质。 该方法的一具体实施方式包 括: 获取第一文本; 将所述第一文本的文本向量 输入利用基于差分隐私模型训练方法预先训练 的语言模型, 得到预设候选词语集合中不同候选 词语在所述第一文本后出现的第一出现概率; 基 于各所述候选词语的第一出现概率, 生成当前应 用场景下与所述第一文本对应的第二文本。 该实 施方式提高了在不同应用场景下生成与第一文 本对应的第二文本的隐私保护力度, 可减少用于 生成第二文本的语言模型的训练数据信息被泄 露的风险。 权利要求书3页 说明书18页 附图5页 CN 114841142 A 2022.08.02 CN 114841142 A 1.一种文本生成方法, 包括: 获取第一文本; 将所述第一文本的文本向量输入利用基于差分隐私模型训练方法预先训练的语言模 型, 得到预设候选词语集合中不同候选词语在所述第一文本后出现的第一出现概率, 其中, 在利用训练数据集合训练所述语言模型的过程中, 对所述训练数据集合中训练数据对应的 梯度进行裁剪, 根据所述训练数据集合中样本文本的隐私程度确定待添加噪声, 以及将所 述待添加噪声添加到所述训练数据集 合对应的平均裁 剪梯度; 基于各所述候选词语的第 一出现概率, 生成当前应用场景下与 所述第一文本对应的第 二文本。 2.根据权利要求1所述的方法, 其中, 所述方法还 包括: 呈现所述第二文本 。 3.根据权利要求1所述的方法, 其中, 所述当前应用场景为文本输入场景或语音识别场 景, 所述第一文本为已输入文本或已识别文本 。 4.根据权利要求3所述的方法, 其中, 所述基于各所述候选词语的第一出现概率, 生成 当前应用场景 下与所述第一文本对应的第二文本, 包括: 将各所述候选词语按照第一出现概 率从大到小的顺序排序; 用各所述候选词语中排序在第一预设较高出现概率范围内的候选词语生成候选词语 子集合; 基于所述 候选词语子集 合中各候选词语和相应第一出现概 率形成所述第二文本 。 5.根据权利要求1所述的方法, 其中, 所述当前应用场景为辅助写作场景, 所述第一文 本为已输入文本; 以及 所述基于各所述候选词语的第 一出现概率, 生成当前应用场景下与 所述第一文本对应 的第二文本, 包括: 将各所述候选词语中第一出现概率最大的候选词语拼接在所述第一文本之后形成拼 接文本; 执行预设数目次以下拼接操作: 将所述拼接文本的文本向量输入所述语言模型, 得到 各所述候选词语在所述拼接文本后出现的第二出现概率; 将各所述候选词语中第二出现概 率最大的候选词语拼接在所述 拼接文本之后; 用所述拼接文本中除所述第一文本之外的文本生成所述第二文本 。 6.根据权利要求1所述的方法, 其中, 所述当前应用场景为问答场景, 所述第一文本为 问题文本; 以及 所述基于各所述候选词语的出现概率, 生成当前应用场景下与 所述第一文本对应的第 二文本, 包括: 将各所述候选词语按照第一出现概 率从大到小的顺序排序; 用各所述候选词语中排序在第二预设较高出现概率范围内的候选词语生成答复候选 词语集合; 按照预设答复关键词与答复文本之间的对应关系, 确定与各所述答复候选词语对应的 答复文本; 基于各所述答复候选词语对应的答复文本生成所述第二文本 。权 利 要 求 书 1/3 页 2 CN 114841142 A 27.根据权利要求1所述的方法, 其中, 所述语言模型是通过如下训练步骤预先训练得到 的: 获取初始语言模型和至少一个训练数据集合, 训练数据包括样本文本、 样本文本向量 和各所述候选词语的标注出现概 率; 针对所述至少一个训练数据集合中的训练数据集合执行以下参数调 整操作, 直到满足 预设训练结束条件, 所述参数调整操作包括: 按照该训练数据集合的隐私权重对预设随机 噪声进行调整, 得到隐私调整后随机噪声; 对该训练数据集合中各训练数据对应的梯度进 行裁剪, 得到相应裁剪梯度, 以及确定该训练数据集合对应的平均裁剪梯度; 为该训练数据 集合对应的平均裁剪梯度添加所得到的 隐私调整后随机噪声, 得到该训练数据集合对应的 噪声梯度; 基于该训练数据集合对应的噪声梯度, 采用预设的梯度下降优化算法对所述初 始语言模型的模型参数进行调整; 将所述初始语言模型确定为所述预 先训练的语言模型。 8.根据权利要求7所述的方法, 其中, 在按照该训练数据集合的隐私权重对预设随机噪 声进行调整, 得到隐私调整后随机噪声之前, 所述 参数调整操作还 包括: 对于该训练数据集合中的训练数据, 执行以下隐私度计算操作: 将该训练数据中的样 本文本向量输入所述初始语言模型, 得到与该训练数据对应的、 用于预测该训练数据中样 本文本之后出现各所述候选词语的预测出现概率; 基于所得到的各所述候选词语的预测出 现概率, 确定与该训练数据对应的、 用于表征该训练数据中样本文本在该训练数据集合中 隐私程度的隐私度; 以及 基于该训练数据集合中各训练数据对应的隐私度, 确定该训练数据集合的、 用于表征 该训练数据集 合中各样本文本整体隐私程度的隐私权 重。 9.根据权利要求8所述的方法, 其中, 所述基于该训练数据集合中各训练数据对应的隐 私度, 确定该训练数据集合的、 用于表征该训练数据集合中各样本文本整体隐私程度的隐 私权重, 包括: 将该训练数据集合中各训练数据对应的隐私度的均值确定为该训练数据集合的隐私 权重。 10.根据权利要求8所述的方法, 其中, 所述对该训练数据集合中各训练数据对应的梯 度进行裁 剪, 得到相应裁 剪梯度, 包括: 对于该训练数据集合中的训练数据, 执行以下梯度裁剪操作: 确定该训练数据对应的 各所述候选词语的预测出现概率和标注出现概率之 间的损失函数值; 基于所确定的损失函 数值, 确定与该训练数据对应的梯度; 按照预设梯度裁剪范数对与该训练数据对应的梯度 进行裁剪, 得到与该训练数据对应的裁 剪梯度。 11.根据权利要求10所述的方法, 其中, 所述按照该训练数据集合的隐私权重对预设随 机噪声进行调整, 得到隐私调整后随机噪声, 包括: 按照该训练数据集合的隐私权重和所述预设梯度裁剪范数对所述预设随机噪声进行 调整, 得到该训练数据集 合的隐私调整后随机噪声。 12.根据权利要求8所述的方法, 其中, 所述基于所得到的各所述候选词语的预测出现 概率, 确定与该训练数据对应的、 用于表征该训练数据中样本文本在该训练数据集合中隐 私程度的隐私度, 包括:权 利 要 求 书 2/3 页 3 CN 114841142 A 3

PDF文档 专利 文本生成方法、装置、电子设备和存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本生成方法、装置、电子设备和存储介质 第 1 页 专利 文本生成方法、装置、电子设备和存储介质 第 2 页 专利 文本生成方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。