全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211229193.9 (22)申请日 2022.10.08 (71)申请人 浙江浙里信征信有限公司 地址 310000 浙江省杭州市西湖区文一西 路83号浙江财经大学文华校区综合楼 201室 申请人 天道金科股份有限公司 (72)发明人 李响 唐嘉成 周凌一 陈思明  魏忠钰 戴鼎璋 王江华 王思皓  (74)专利代理 机构 杭州信义达专利代理事务所 (普通合伙) 33305 专利代理师 陈继算 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/26(2012.01) (54)发明名称 基于提示学习的政策文本分类方法 (57)摘要 本发明公开了一种基于提示学习的政策文 本分类方法, 属于自然语言处理技术领域。 本发 明构建了一套完整的政策文件要素体系, 通过将 政策文件中的的各个不同要素作清晰划分, 后续 基于这个体系, 能够更为准确地实现对政策文件 中每个段落的分类。 提供的政策文本分类器通过 在原始段落 中增加分类任务的提示语言, 该 提示语言中包含需要预测并填写标签的掩码位 置, 将段落 分类问题转换为类型完形填空的分类 预测问题, 简化了段落分类预测的过程, 能够基 于所构建的完整的政策文件要素体系, 更精准地 从内容构成和文件结构的角度解析政策文件文 本, 并挖掘出更深层的信息, 提高了段落分类的 准确度。 权利要求书3页 说明书13页 附图4页 CN 115455189 A 2022.12.09 CN 115455189 A 1.一种基于提 示学习的政策文本分类方法, 其特 征在于, 步骤 包括: S1, 对于给定的政策文件中的段落 , 使用模板函数 将 转换为语言模型 的输入 , 在原始的所述段落 中增加了分类任务的提示语言, 所述提示语言中包含需要预测并 填写标签的掩码位置; S2, 所述语言模型 预测出填入所述掩码位置的标签 ; S3, 标签转换器 将所述标签 映射为事先构建 的政策文件要素体系的标签词 集合 中 对应的标签词 作为预测得到的所述段落 的类型。 2.根据权利要求1所述的基于提示学习的政策文本分类方法, 其特征在于, 训练所述语 言模型 的方法步骤 包括: A1, 对于作为训练样本的每个 , 计算所述标签词集合 中的每个标签词 填入所 述掩码位置的概 率分数 ; A2, 通过softmax函数计算 概率分布 ; A3, 根据 和 , 并利用所构造的损失函数, 计算模型 预测损失; A4, 判断是否 达到模型迭代训练终止条件, 若是, 则终止迭代, 输出 所述语言模型 ; 若否, 则调整模型参数后返回步骤A1 继续进行迭代训练。 3.根据权利要求2所述的基于提示学习的政策文本分类方法, 其特征在于, 的 计算方法通过以下公式 (1) 表达: 通过softmax函数 (2) 表达计算: 公式 (1)‑(2) 中, 表示所述标签词 的标签; 表示文本分类任务的标签集 合。 4.根据权利要求3所述的基于提示学习的政策文本分类方法, 其特征在于, 所构造的所 述损失函数通过以下公式 (3) 表达: 公式 (3) 中, 表示微调系数; 表示模型 预测的分布 与真实分布间的差距; 表示模型 预测的分数 与真实分数间的差距。 5.根据权利要求1所述的基于提示学习的政策文本分类方法, 其特征在于, 所述语言模 型 为由若干个语言子模型 融合形成的融合语言模型, 训练所述融合语言模型的方法 包括步骤: B1, 定义模板函数集 合 , 所述模板函数集 合 中包含若干个不同的所述模板函数 ; B2, 对于作为训练样本的每个 , 通过对应的所述语言子模型 , 计算所述标签词集权 利 要 求 书 1/3 页 2 CN 115455189 A 2合 中的每个标签词 填入所述掩码位置的概 率分数 ; B3, 对关联每 个所述模板函数 的 进行融合得到 ; B4, 通过softmax函数计算 概率分布 ; B5, 根据 和 , 并利用所构造的损失函数, 计算模型 预测损失; B6, 判断是否 达到模型迭代训练终止条件, 若是, 则终止迭代, 输出 所述融合语言模型; 若否, 则调整模型参数后返回步骤B2继续进行迭代训练。 6.根据权利要求5所述的基于提示学习的政策文本分类方法, 其特征在于, 的 计算方法通过以下公式 (4) 表达: 通过以下公式 (5) 融合而得: 公式 (5) 中, 表示所述模板函数集 合 中的所述模板函数 的数量; 表示所述模板函数 在计算 时所占的权 重; 通过softmax函数 (6) 计算: 所构造的所述损失函数通过以下公式 (7) 表达: 公式 (7) 中, 表示微调系数; 表示模型 预测的分布 与真实分布间的差距; 表示模型 预测的分数 与真实分数间的差距。 7.根据权利要求5所述的基于提示学习的政策文本分类方法, 其特征在于, 所述语言模 型 或所述语言子模型 为BERT语言模型。 8.根据权利要求4或6所述的基于提示学习的文本分类方法, 其特征在于, 微调系数 。 9.根据权利要求1所述的基于提示学习的政策文本分类方法, 其特征在于, 所述政策文 件要素体系包括句 子级别要素和实体级别要素, 所述句 子级别要素包括政策目标、 申请审 核、 政策工具‑供给型、 政 策工具‑环境型、 政策工具‑需求型、 资金管 理、 监管评估、 准入 条件 8大类共27个子类别中的任意 一种或多种, 其中, 所述政策工具 ‑供给型这一大类下包括人才培养、 资金支持、 技术支持、 公共服务 这4个子类别中的任意 一种或多种; 所述政策工具 ‑环境型这一大类下包括法规管制、 目标规划、 税收优惠、 金融支持、 组织 建设、 政策宣传这6个子类别中的任意 一种或多种; 所述政策工具 ‑需求型这一大类下包括政府采购、 公司合作、 海外合作这3个子类别 中权 利 要 求 书 2/3 页 3 CN 115455189 A 3

PDF文档 专利 基于提示学习的政策文本分类方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于提示学习的政策文本分类方法 第 1 页 专利 基于提示学习的政策文本分类方法 第 2 页 专利 基于提示学习的政策文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。