专利基于多语言模型的跨语言摘要生成方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210966889.3 (22)申请日 2022.08.11 (71)申请人北京智谱华章科技有限公司地址 100084 北京市海淀区中关村东路1号院6号楼6层6 03A (72)发明人孙梦阳　李天健　杜政晓　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称基于多语言模型的跨语言摘要生成方法和装置 (57)摘要本申请提出了一种基于多语言模型的跨语言摘要生成方法，涉及跨语言摘要生成技术领域，其中，该方法包括：获取多语言文本数据；基于多语言文本数据对通用语言模型进行预训练，得到多语言模型；获取多语言摘要数据，基于多语言摘要数据对多语言模型进行学习，得到多语言摘要生成模型；获取待处理文本数据，将待处理文本数据输入多语言摘要生成模型，生成待处理文本数据对应的多种不同语言的摘要。本申请实现了跨语言摘要生成，能够生成不同语言的摘要，同时能够提炼总结文本大意，提高了摘要的精度。权利要求书2页说明书9页附图3页 CN 115455175 A 2022.12.09 CN 115455175 A 1.一种基于多语言模型的跨语言摘要生成方法，其特征在于，包括以下步骤：获取多语言文本数据；基于所述多语言文本数据对通用语言模型进行预训练，得到多语言模型；获取多语言摘要数据，基于所述多语言摘要数据对所述多语言模型进行学习，得到多语言摘要生成模型；获取待处理文本数据，将所述待处理文本数据输入所述多语言摘要生成模型，生成所述待处理文本数据对应的多种不同语言的摘要。 2.如权利要求1所述的方法，其特征在于，在所述获取多语言文本数据之后，包括：针对所述多语言文本数据的每一种语言的文本序列，随机采样多个文本片段，将所述文本序列中采样的每个片段用一个掩码标记替换，得到损坏的文本序列，其中，每个片段对应于一系列连续的字符；将所述损坏的文本序列作为第一样本数据；将被掩码标记替换的片段作为第二样本数据。 3.如权利要求2所述的方法，其特征在于，所述基于所述多语言文本数据对通用语言模型进行预训练，得到多语言模型，包括：根据所述第一样本数据和第二样本数据，对所述通用语言模型进行预训练，得到多语言模型。 4.如权利要求3所述的方法，其特征在于，所述方法，还包括：通过更改采样文本片段的长度和数量，生成适应不同任务的预训练目标对所述通用语言模型进行预训练，得到适应不同任务的多语言模型。 5.如权利要求4所述的方法，其特征在于，所述通过更改采样文本片段的长度和数量，生成适应不同任务的预训练目标，包括：通过将每个片段的长度从均值为3的泊松分布中采样，总的片段长度为原始序列长度的第一预设比例，生成适应自然语言理解的分类任务的预训练目标；通过使每个片段是文本序列中一个完整的句子，总的片段长度为原始文本序列长度的第二预设比例，生成适应条件文本生成的任务的预训练目标；通过在一个文本序列中只采样一个片段，使片段长度为原始文本序列长度的第三预设比例，生成适应长文本生成的任务的预训练目标。 6.如权利要求1所述的方法，其特征在于，所述多语言摘要数据包括不同语言的原文数据和摘要数据，所述获取多语言摘要数据，基于所述多语言摘要数据对所述多语言模型进行学习，得到多语言摘要生成模型，包括：将所述不同语言的原文数据和摘要数据作为训练数据，使用基于提示的微调对所述多语言模型进行训练，得到多语言摘要生成模型。 7.一种基于多语言模型的跨语言摘要生成装置，其特征在于，包括：获取模块，用于获取多语言文本数据；预训练模块，用于基于所述多语言文本数据对通用语言模型进行预训练，得到多语言模型；训练模块，用于获取多语言摘要数据，基于所述多语言摘要数据对所述多语言模型进行学习，得到多语言摘要生成模型；权　利　要　求　书 1/2 页 2 CN 115455175 A 2生成模块，用于获取待处理文本数据，将所述待处理文本数据输入所述多语言摘要生成模型，生成所述待处理文本数据对应的多种不同语言的摘要。 8.如权利要求7 所述的装置，其特征在于，在所述获取多语言文本数据之后，包括：针对所述多语言文本数据的每一种语言的文本序列，随机采样多个文本片段，将所述文本序列中采样的每个片段用一个掩码标记替换，得到损坏的文本序列，其中，每个片段对应于一系列连续的字符；将所述损坏的文本序列作为第一样本数据；将被掩码标记替换的片段作为第二样本数据。 9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求 1‑6中任一所述的方法。 10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑6中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115455175 A 3

专利 基于多语言模型的跨语言摘要生成方法和装置

专利基于多语言模型的跨语言摘要生成方法和装置