全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210385699.2 (22)申请日 2022.04.13 (71)申请人 中国农业银行股份有限公司 地址 100005 北京市东城区建国门内大街 69号 (72)发明人 韩紫微 宋启威 杨妍  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张思淼 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称 一种基于隐私保护的数据处理方法、 装置以 及电子设备 (57)摘要 本申请实施例公开了一种基于隐私保护的 数据处理方法、 装置以及电子设备, 该方法包括: 首先获取原始数据, 该原始数据为二分类数据; 在确定原始数据的卡方值后, 确定噪声数据的卡 方值的取值范围, 该噪声数据是对原始数据进行 加噪得到的, 原始数据的卡方值和临界值的大小 关系, 和噪声数据的卡方值和临界值的大小关系 是相同的, 噪声数据的卡方值小于原始数据的卡 方值; 根据原始数据的卡方值和噪声数据的卡方 值的取值范围, 确定第一噪声频数的取值范围; 根据第一噪声频数的取值范围和原始数据和噪 声数据之间的差异, 确定第一噪声频数的取值; 基于第一噪声频数的取值对原始数据进行加噪 以得到噪声数据, 用以提高经过隐私保护的数据 的可用性。 权利要求书2页 说明书13页 附图2页 CN 114741726 A 2022.07.12 CN 114741726 A 1.一种基于隐私保护的数据处 理方法, 其特 征在于, 所述方法包括: 获取原始数据; 其中, 所述原始数据的取值仅包括第 一取值和第二取值两种, 所述原始 数据包括案例组的原 始数据和对照组的原 始数据; 确定所述原 始数据的卡方值; 根据所述原始数据的卡方值, 确定噪声数据的卡方值的取值范围; 其中, 所述噪声数据 的取值仅包括所述第一取值和所述第二取值两种, 所述噪声 数据包括案例组的噪声数据和 对照组的噪声数据, 所述案例组的噪声数据是对所述案例组的原始数据进行加噪得到的, 所述对照组的噪声数据是对所述对照组的原始数据进 行加噪得到的; 原始数据的卡方值和 临界值的大小关系, 和噪声数据的卡方值和临界值的大小关系 是相同的; 噪声数据的卡方 值小于原 始数据的卡方值; 根据所述原始数据的卡方值和所述噪声数据的卡方值的取值范围, 确定第 一噪声频数 的取值范围; 其中, 所述第一噪声频数为所述案例组的噪声数据中取值为所述第一取值的 数目; 根据所述第一噪声频数的取值范围, 以及所述原始数据和所述噪声数据之间的差异, 确定第一噪声频 数的取值; 基于所述第 一噪声频数的取值, 分别对所述案例组 的原始数据和所述对照组 的原始数 据进行加噪处 理, 得到所述案例组的噪声数据和所述对照组的噪声数据。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述原始数据的卡方值, 具体包 括: 根据第一原始频数、 第二原始频数、 第一数目和第二数目, 确定所述原始数据的卡方 值; 其中, 所述第一原始频数为所述案例组的原始数据中取值为所述第一取值的数目, 所述 第二原始频数为所述案例组的原始数据中取值为所述第二取值的数目, 所述第一数目为所 述第一原始频数和所述对照组的原始数据中取值为所述第一取值的数目之和, 所述第二数 目为所述第二原 始频数b所述对照组的原 始数据中取值 为所述第二取值的数目之和。 3.根据权利要求1或2任一项所述的方法, 其特征在于, 所述临界值是查询卡方分布临 界值表得到的。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一噪声频数的取值范围 以 及所述原 始数据和所述噪声数据之间的差异, 确定第一噪声频 数的取值, 具体包括: 在所述第一噪声频数的取值范围内确定所述第 一噪声频数的数值, 以使所述原始数据 和所述噪声数据之间的差异最大。 5.根据权利要求1所述的方法, 其特征在于, 所述原始数据和所述噪声数据之间的差异 具体包括所述原 始数据和所述噪声数据之间期望估计误差 。 6.根据权利要求1所述的方法, 其特征在于, 在所述基于所述第一噪声频数的取值, 分 别对所述案例组的原始数据和所述对照组的原始数据进行加噪处理, 得到所述案例组的噪 声数据和所述对照组的噪声数据之后, 所述方法还 包括: 对所述案例组 的噪声数据和所述对照组的噪声数据进行后处理, 所述后处理包括以下 中的至少一种: 对数据进行 取整, 或者 根据精度需求对数据进行四舍五入运 算。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取身份数据, 其中, 所述身份数据用于标识个 体的身份;权 利 要 求 书 1/2 页 2 CN 114741726 A 2对所述身份数据进行模糊处理, 其中, 所述模糊处理包括: 对所述身份数据进行去标识 化处理, 或者对所述身份数据进行泛化处理, 所述泛化处理为利用预设字符代替多个所述 身份数据中的差异字符。 8.一种基于隐私保护的数据处 理装置, 其特 征在于, 所述装置包括: 数据获取单元, 用于获取原始数据, 其中, 所述原始数据的取值仅包括第 一取值和第二 取值两种, 所述原 始数据包括案例组的原 始数据和对照组的原 始数据; 第一确定单 元, 用于确定所述原 始数据的卡方值; 第二确定单元, 用于根据 所述原始数据的卡方值, 确定噪声数据的卡方值的取值范围; 其中, 所述噪声数据的取值仅包括所述第一取值和所述第二取值两种, 所述噪声数据包括 案例组的噪声 数据和对照组的噪声数据, 所述案例组的噪声 数据是对所述案例组的原始数 据进行加噪得到的, 所述对照组的噪声数据是对所述对照组的原始数据进行加噪得到的; 原始数据的卡方值和临界值的大小关系, 和噪声 数据的卡方值和临界值的大小关系是相同 的; 噪声数据的卡方值小于原 始数据的卡方值; 第三确定单元, 用于根据所述原始数据的卡方值和所述噪声数据的卡方值的取值范 围, 确定第一噪声频数的取值范围, 其中, 所述第一噪声频数为所述案例组的噪声 数据中取 值为所述第一取值的数目; 第四确定单元, 用于根据所述第一噪声频数的取值范围, 以及所述原始数据和所述噪 声数据之间的差异, 确定第一噪声频 数的取值; 加噪处理单元, 用于基于所述第一噪声频数的取值, 分别对所述案例组的原始数据和 所述对照组的原始数据进 行加噪处理, 得到所述案例组的噪声数据和所述对照组的噪声 数 据。 9.一种电子设备, 其特征在于, 所述电子设备包括处理器和存储器, 其中, 所述存储器 存储有代码, 所述处理器用于调用所述存储器中存储的代码, 以执行权利要求1至7任一项 所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 程序, 所述计算机程序用于执 行权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114741726 A 3

PDF文档 专利 一种基于隐私保护的数据处理方法、装置以及电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于隐私保护的数据处理方法、装置以及电子设备 第 1 页 专利 一种基于隐私保护的数据处理方法、装置以及电子设备 第 2 页 专利 一种基于隐私保护的数据处理方法、装置以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。