全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211051470.1 (22)申请日 2022.08.31 (71)申请人 厦门国际银行股份有限公司 地址 361000 福建省厦门市鹭江道8-10号 国际银行 大厦1-6层 (72)发明人 郑文晖 刘捷 林晓光  (74)专利代理 机构 厦门仕诚联合知识产权代理 事务所(普通 合伙) 35227 专利代理师 蔡稷元 (51)Int.Cl. G06Q 40/02(2012.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的风控模 型建立方法、 系 统及存储介质 (57)摘要 本发明公开了一种基于机器学习的风控模 型建立方法、 系统及存储介质, 其包括以下步骤: 包括以下步骤: 步骤a.获取第一数据, 并基于第 一数据建立数据宽表; 步骤b.对第一数据进行数 据处理, 得到第二数据; 步骤c.对第二数据进行 变量分类, 对于第一变量, 采用第一预设特征分 箱规则进行特征分箱, 对于第二变量, 采用第二 预设特征分箱规则进行特征分箱; 步骤d.对特征 分箱后的变量进行特征筛选; 步骤e.基于 特征筛 选结果, 建立模型并生成对应的模型指标、 评分 卡指标以及应用策略。 本发明将现实问题转换为 运筹优化问题, 能够在较短时间内获得变量可行 域上的最优解, 有效提升分箱效率, 实现了对风 控模型的自动化建模。 权利要求书3页 说明书8页 附图1页 CN 115423603 A 2022.12.02 CN 115423603 A 1.一种基于 机器学习的风控 模型建立方法, 其特 征在于, 包括以下步骤: 步骤a.获取第一数据, 并基于第一数据建立数据宽表; 步骤b.对第一数据进行数据处理, 得到第二数据, 所述数据处理至少包括数据清洗、 特 征衍生; 步骤c.对第二数据进行变量分类, 对于第一变量, 采用第一预设特征分箱规则进行特 征分箱, 对于第二变量, 采用第二预设特征分箱 规则进行特征分箱; 第一变量为非数值型变 量, 第二变量 为数值型变量; 步骤d.对特 征分箱后的变量进行 特征筛选; 步骤e.基于特征筛选结果, 建立模型并生成对应的模型指标、 评分卡指标以及应用策 略。 2.根据权利要求1所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述第 一数据至少包括 客户申请流水号、 客户编号、 查询时间其中之一。 3.根据权利要求1所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述步 骤b具体包括如下步骤: b1.基于第一数据的变量, 计算变量的缺失值、 共线性、 信息价 值; b2.基于变量的缺失值、 共线性、 信息价值以及预设过滤条件, 对变量数据进行数据清 洗; b3.基于数据清洗后的第一数据进行特征构造, 并对变量特征进行特征衍生, 得到第二 数据; 特征衍生方法至少包括: 计算变量特征的近度、 频度、 值度, 进行特征衍生; 所述近度 为最近一次发生某一动作的时间, 频度为某一时间段内发生某一相同动作的次数, 值度为 某一时间段内某一动作涉及的金额或等 值金额。 4.根据权利要求1所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述步 骤c中, 第一预设特征分箱 规则为采用决策树 或卡方分箱方式进 行特征分箱, 第二预设特征 分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行 特征分箱。 5.根据权利要求4所述的一种基于机器学习的风控模型建立方法, 其特征在于: 采用基 于二次规划及分支定界算法的变量单调性分箱算法进行 特征分箱, 至少包括如下步骤: S1.对每个需要单调性分箱的变量, 构建一个长为M、 宽为 N的决策变量矩阵Fxi,j: 其中, M为单个变量最大精度数量,即初始化分箱时的最密区分数, N为变量最终最大分 箱数量,即最终单调性分箱的最大分箱数量, 且M={1, ..., m, ..., Maa}, N={1, ..., n, ..., Naa}, i属于集 合M, j属于集 合N; S2.基于决策变量矩阵, 定义整数规划目标函数Z, 并对目标函数 取最大值Max  Z, Max Z=∑j∈N(∑p∈Pabs(∑i∈MFxi,j*(zb3i‑zb1i*avg_bad*avg_bad_ratep))); 其中, zb1i为各M分箱中的样本个数, zb2i为各M分箱中的样本坏样本比例, zb3i为各M分 箱中的样本坏样本数量, avg_bad_ratep为样本, p属于P集合, P为坏样本逾期率乘数, P= {1, ..., p, ..., Paa}, Avg_bad为样本的平均逾期率;权 利 要 求 书 1/3 页 2 CN 115423603 A 2S3.根据预设约束条件规则, 求解出 决策变量矩阵的可行解, 并将计算结果作为最优分 箱值; 若无 可行解, 则特 征变量转用卡方分箱或决策树方式, 获取最优分箱值。 6.根据权利要求5所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述预 设约束条件规则为同时满足以下约束条件: 第一约束条件: 约束方程每列 均要使用至少一个子分箱; 第二约束条件: 约束每 个最大精度数的子分箱均要被使用; 第三约束条件: 约束首列必须从首 行开启, 且不能反复; 第四约束条件: 约束末列必须在末列结束, 且不能反复; 第五约束条件: 约束中间列不能出现 反复, 且仅允许选择一次连续的分箱; 第六约束条件: 对中间相邻列进行约束, 且仅允许相邻列所选择的变量按行降序选择; 第七约束条件: 为单调性 假设, 且仅允许变量具有具有单调递增或单调递减规 律。 7.根据权利要求1所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述步 骤d具体包括如下步骤: d1.对特征分箱后的变量进行WOE赋值, 计算特征分箱后的变量的群体稳定性指标、 信 息价值、 皮尔森相关系数、 方差膨胀因子; 并根据对应预设阈值, 进行 特征过滤; d2.通过Embed ded嵌入法对过 滤后的特 征进行筛 选; d3.获取入 模特征, 并对其进行 逐步回归, 使得p值符合预设标准; d4.对部分特征进行二次逐步回归, 使得p值符合预设标准, 并且所有回归系数均大于 0; d5.对最终模型的群体稳定性指标、 信息价值、 皮尔森相关系数、 方差膨胀因子、 P值、 回 归系数进行检验, 确保 符合对应要求。 8.根据权利要求1所述的一种基于机器学习的风控模型建立方法, 其特征在于: 所述步 骤e具体包括如下步骤: e1.基于特 征筛选结果, 建立 LR模型; e2.对LR模型的效果进行检验, 判断其效果是否符合模型效果标准; 若是, 则生成最终 模型, 并将最终模型转换为评分卡指标; e3.基于评分卡指标, 通过样本分布情况, 制定并生成对应的应用策略。 9.一种基于 机器学习的风控 模型建立系统, 其特 征在于, 包括: 数据宽表建立模块, 用于获取第一数据, 并基于第一数据建立数据宽表; 数据处理模块, 用于对第 一数据进行数据处理, 得到第 二数据, 所述数据处理至少包括 数据清洗、 特 征衍生; 特征分箱模块, 用于对第 二数据进行变量分类, 对于第 一变量, 采用第 一预设特征分箱 规则进行特征分箱, 对于第二变量, 采用第二预设特征分箱 规则进行特征分箱; 第一变量为 非数值型变量, 第二变量 为数值型变量; 特征筛选模块, 用于对特 征分箱后的变量进行 特征筛选; 模型建立模块, 用于基于特征筛选结果, 建立模型并生成对应的模型指标、 评分卡指标 以及应用策略。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有基于机 器学习的风控模型建立程序, 所述基于机器学习的风控模型建立程序被处理器执行时实现权 利 要 求 书 2/3 页 3 CN 115423603 A 3

PDF文档 专利 一种基于机器学习的风控模型建立方法、系统及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的风控模型建立方法、系统及存储介质 第 1 页 专利 一种基于机器学习的风控模型建立方法、系统及存储介质 第 2 页 专利 一种基于机器学习的风控模型建立方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。