全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211146627.9 (22)申请日 2022.09.21 (71)申请人 中国电子信息产业 集团有限公司 地址 100190 北京市海淀区中关村东路6 6 号院甲1号 (世纪科贸大厦A座) (72)发明人 陆志鹏 胡成盛 朱立锋 刘国栋  国丽 郑曦 周崇毅 赵健  温彦龙 乔亲旺 范国浩 修心  林希明 章纯梓  (74)专利代理 机构 工业和信息化部电子专利中 心 11010 专利代理师 袁鸿 (51)Int.Cl. G06F 40/30(2020.01) G06N 20/00(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/295(2020.01) (54)发明名称 基于规则与语义分析的质检规则自动化配 置方法及装置 (57)摘要 本申请公开了一种基于规则与语义分析的 质检规则自动化配置方法及装置, 包括: 获取数 据元件结果信息; 对获取的数据元件 结果字段名 称信息进行关键词匹配和实体识别, 以初步检测 出需要独立质检的第一字段信息; 对需要独立质 检的第一字段信息的取值进行判断, 以确定所述 第一字段信息的类型和特征; 根据所述第一字段 信息的类型和特征, 利用预先构建的树模型, 以 识别出数据元件结果中需要独立质检的第二字 段信息; 基于识别出的第二字段信息的字段信息 项, 确定所述第二字段信息对应的落标权限; 根 据所确定出的落标权限配置相应的质检规则算 子。 本申请实施例通过对数据资源进行自动化配 置质检规则, 极大提高政务数据质检效率和调度 能力。 权利要求书2页 说明书4页 附图1页 CN 115221893 A 2022.10.21 CN 115221893 A 1.基于规则与语义分析的质检规则自动化配置方法, 其特 征在于, 包括: 获取数据 元件结果信 息, 所述结果信 息包括数据 元件结果字段名称信 息和字段内容信 息; 对获取的数据 元件结果字段名称信 息进行关键词匹配和实体识别, 以初步检测出需要 独立质检的第一字段信息; 对需要独立质检的第 一字段信 息的取值进行判断, 以确定所述第 一字段信 息的类型和 特征; 根据所述第一字段信息的类型和特征, 利用预先构建的树模型, 以识别出数据元件结 果中需要独立质检的第二字段信息; 基于识别出的第二字段信息的字段信息项, 确定所述第二字段信息对应的落标权限; 根据所确定出的落标权限配置相应的质检规则算子, 以实现对应数据 元件的质检规则 自动化落标。 2.如权利要求1所述的基于规则与语义分析的质检规则自动 化配置方法, 其特征在于, 对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括: 预先构建对于数据元件质量检测的通用字典库; 利用所述通用字典库, 对获取的数据 元件结果字段名称信 息进行关键词匹配和实体识 别。 3.如权利要求2所述的基于规则与语义分析的质检规则自动 化配置方法, 其特征在于, 对需要独立质检的第一字段信息的取值进 行判断, 以确定所述第一字段信息的类型和特征 包括: 在所述第一字段信 息中包含规则表达 式的情况下, 采用正则表达 式来提取所述第 一字 段信息的类型和特 征; 在所述第一字段信 息中包含明确的值域且可数的情况下, 采用关键词匹配来提取所述 第一字段信息的类型和特 征; 在所述第一字段信 息表达方式不固定但指代明确的情况下, 采用实体识别对所述第 一 字段信息进行语义分析, 来 提取所述第一字段信息的类型和特 征。 4.如权利要求1所述的基于规则与语义分析的质检规则自动 化配置方法, 其特征在于, 所述树模型是基于三种字段的不同特 征预先采用对应的方式构建的。 5.如权利要求1所述的基于规则与语义分析的质检规则自动 化配置方法, 其特征在于, 基于识别出的第二字段信息的字段信息项, 确定所述第二字段信息对应的落标权限包括: 根据识别出的第二字段信息的字段信息项、 数据元件结果的体量大小、 字段信息项对 应的质检规则数量作为先验经验, 利用贝叶斯判别方法识别质检规则任务的落标权限。 6.如权利要求5所述的基于规则与语义分析的质检规则自动 化配置方法, 其特征在于, 所配置的质检规则算子包括如下算子的一种或多种: 数据元件质量的规范性检查算子、 准 确性检查 算子、 一致性检查算子、 完整性检查 算子、 唯一 性检查算子、 时效性检查 算子。 7.基于规则与语义分析的质检规则自动化配置装置, 其特征在于, 包括处理器和存储 器, 所述存储器上存储有计算机程序, 所述计算机程序被处理器执行时实现如权利要求 1至 6中任一项所述的基于规则与语义分析的质检规则自动化配置方法的步骤。 8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机权 利 要 求 书 1/2 页 2 CN 115221893 A 2程序, 所述计算机程序被处理器执行时实现如权利要求 1至6中任一项 所述的基于规则与语 义分析的质检规则自动化配置方法的步骤。权 利 要 求 书 2/2 页 3 CN 115221893 A 3

PDF文档 专利 基于规则与语义分析的质检规则自动化配置方法及装置

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于规则与语义分析的质检规则自动化配置方法及装置 第 1 页 专利 基于规则与语义分析的质检规则自动化配置方法及装置 第 2 页 专利 基于规则与语义分析的质检规则自动化配置方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。