全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210663099.8 (22)申请日 2022.06.13 (71)申请人 蚂蚁区块链科技 (上海) 有限公司 地址 200010 上海市黄浦区外马路618号8 层803室 (72)发明人 鲍梦瑶 刘佳伟 章鹏 张谦  殷雪梅  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 吴肖肖 (51)Int.Cl. G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称 分类模型训练方法及装置 (57)摘要 本说明书实施例提供分类模型训练方法及 装置, 其中, 该方法包括获取正样本训练数据, 并 根据至少两种数据增强方法, 对正样本训练数据 进行数据增强, 获得初始负样本训练数据; 根据 正样本训练数据和初始负样本训练数据, 训练获 得第一分类模型; 根据至少两种数据增强方法、 初始负样 本训练数据以及第一分类模 型, 获得目 标负样本训练数据; 根据正样 本训练数据和目标 负样本训练数据, 训练获得第二分类模型。 具体 的, 该方法可 以根据正样本训练数据以及、 通过 数据增强方法获得的负样本训练数据训练相应 的分类模型, 提高该分类模型的训练效果, 使得 该分类模型后续应用于隐私数据识别场景中时, 可以快速且准确的识别数据仓库中的隐私数据。 权利要求书3页 说明书18页 附图8页 CN 115017994 A 2022.09.06 CN 115017994 A 1.一种分类模型训练方法, 包括: 获取正样本训练数据, 并根据至少两种数据增强方法, 对所述正样本训练数据进行数 据增强, 获得初始负 样本训练数据, 其中, 所述 正样本训练数据为用户隐私数据; 根据所述 正样本训练数据和所述初始负 样本训练数据, 训练获得第一分类模型; 根据所述至少两种数据增强方法、 所述初始负样本训练数据以及所述第一分类模型, 获得目标负 样本训练数据; 根据所述 正样本训练数据和所述目标负 样本训练数据, 训练获得第二分类模型。 2.根据权利要求1所述的分类模型训练方法, 所述根据所述至少两种数据增强方法、 所 述初始负 样本训练数据以及所述第一分类模型, 获得目标负 样本训练数据, 包括: 确定所述至少两种数据增强方法中、 每种数据增强方法对应的初始负 样本训练数据; 将所述每种增强方法对应的初始负样本训练数据, 输入所述第一分类模型, 获得所述 每种数据增强方法对应的初始负 样本训练数据的预测结果; 根据所述每种数据增强方法对应的初始负样本训练数据的预测结果, 获得目标负样本 训练数据。 3.根据权利要求2所述的分类模型训练方法, 所述根据所述每种数据增强方法对应的 初始负样本训练数据的预测结果, 获得目标负 样本训练数据, 包括: 根据所述每种数据增强方法对应的初始负样本训练数据的预测结果, 从所述至少两种 数据增强方法中确定目标 数据增强方法; 根据所述目标数据增强方法对所述正样本训练数据进行数据增强, 获得目标负样本训 练数据。 4.根据权利要求3所述的分类模型训练方法, 所述根据所述每种数据增强方法对应的 初始负样本训练数据 的预测结果, 从所述至少两种数据增强方法中确定目标数据增强方 法, 包括: 确定所述每种数据增强方法对应的初始负样本训练数据的预测结果, 为第 一目标预测 结果的比例; 在所述比例大于等于预设比例阈值的情况下, 确定所述每种数据增强方法为目标数据 增强方法。 5.根据权利要求2所述的分类模型训练方法, 所述根据所述每种数据增强方法对应的 初始负样本训练数据的预测结果, 获得目标负 样本训练数据, 包括: 根据所述每种数据增强方法对应的初始负样本训练数据的预测结果, 从所述初始负样 本训练数据中确定目标负 样本训练数据。 6.根据权利要求5所述的分类模型训练方法, 所述根据所述每种数据增强方法对应的 初始负样本训练数据 的预测结果, 从所述初始负样本训练数据中确定目标负样本训练数 据, 包括: 确定所述每种数据增强方法对应的初始负样本训练数据的预测结果, 与第 二目标预测 结果匹配的初始负 样本训练数据; 从所述初始负样本训练数据中删除所述与第二目标预测结果匹配的初始负样本训练 数据, 将剩余的其 他初始负 样本训练数据作为目标负 样本训练数据。 7.根据权利要求1所述的分类模型训练方法, 所述获取正样本训练数据, 包括:权 利 要 求 书 1/3 页 2 CN 115017994 A 2获取预设数据类型的样本训练数据作为 正样本训练数据; 或者 从目标数据库中获取 预设数据类型的样本训练数据作为 正样本训练数据。 8.根据权利要求1所述的分类模型训练方法, 所述训练获得第二分类模型之后, 还包 括: 获取正样本验证数据, 并根据所述至少两种数据增强方法, 对所述正样本验证数据进 行数据增强, 获得初始负 样本验证数据; 根据所述至少两种数据增强方法、 所述初始负样本验证数据以及所述第一分类模型, 获得目标负 样本验证数据; 根据所述正样本验证数据和所述目标负样本验证数据, 对所述第二分类模型进行验 证, 获得验证结果。 9.根据权利要求8所述的分类模型训练方法, 所述对所述第 二分类模型进行验证, 获得 验证结果之后, 还 包括: 在所述验证结果不满足预设验证条件的情况下, 根据所述验证结果对所述第 二分类模 型进行模型结构调整, 并根据上述分类模型训练方法的步骤继续训练以及 验证所述第二分 类模型; 以及 在所述验证结果满足所述预设验证条件的情况下, 将所述第 二分类模型发送至目标应 用。 10.根据权利要求9所述的分类模型训练方法, 所述根据 上述分类模型训练方法的步骤 继续训练以及验证所述第二分类模型之后, 还 包括: 在所述验证结果不满足所述预设验证条件, 且所述第 二分类模型的模型结构的调 整次 数大于等于预设次数阈值的情况下, 接收用户发送的指定正样本训练数据以及负样本训练 数据, 根据所述指定正样本训练数据以及负 样本训练数据训练所述第二分类模型。 11.根据权利要求1 ‑10任意一项所述的分类模型训练方法, 所述至少两种数据增强方 法包括随机生成数据增强方法、 同词 库生成数据增强方法、 随机插入 数据增强方法、 随机删 除数据增强方法、 重新排列数据增强方法、 按频率生成数据增强方法、 和/或随机交叉数据 增强方法。 12.一种分类模型训练装置, 包括: 初始数据获取模块, 被配置为获取正样本训练数据, 并根据至少两种数据增强方法, 对 所述正样本训练数据进 行数据增强, 获得初始负样本训练数据, 其中, 所述正样本训练数据 为用户隐私数据; 第一模型训练模块, 被配置为根据所述正样本训练数据和所述初始负样本训练数据, 训练获得第一分类模型; 目标数据获取模块, 被配置为根据所述至少两种数据增强方法、 所述初始负样本训练 数据以及所述第一分类模型, 获得目标负 样本训练数据; 第二模型训练模块, 被配置为根据所述正样本训练数据和所述目标负样本训练数据, 训练获得第二分类模型。 13.一种数据处 理方法, 包括: 确定待检测数据; 将所述待检测数据输入分类模型, 获得 所述待检测数据的检测结果;权 利 要 求 书 2/3 页 3 CN 115017994 A 3

PDF文档 专利 分类模型训练方法及装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 分类模型训练方法及装置 第 1 页 专利 分类模型训练方法及装置 第 2 页 专利 分类模型训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:38:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。