全网唯一标准王
ICS 75-010 E 07 SY 备案号:48256—2015 中华人民共和国石油天然气行业标准 SY/T 7005—2014 数据质量控制与评估原则 Directives for data quality control and assessment 2014一10一15发布 2015一03一01实施 发布 国家能源局 SY/T7005—2014 目 次 前言 引言 II 范围 规范性引用文件 2 3 术语和定义 4 数据质量控制方法 数据质量评估规则 5 数据质量评估流程 数据质量评估指标 附录A(资料性附录) 数据质量实例 16 SY/T7005—2014 前言 本标准按照GB/T1.1一2009《标准化工作导则 第1部分:标准的结构和编写》给出的规则 起草。 本标准由石油信息与计算机应用专业标准化委员会归口。 本标准起草单位:中国石油勘探开发研究院、东北石油大学、大庆油田有限责任公司。 本标准主要起草人:袁满、高雪、黄刚、陈萍、刘学霞、袁靖舒。 SY/T7005—2014 引 本标准分析了石油行业关系数据库中存在的数据质量问题,规定了数据质量从两个角度实现质量 的控制与评估的原则。一方面是从管理角度进行数据质量的控制,另一方面是从技术角度进行数据质 量的控制,两者缺一不可。本标准定义了准确性、一致性等七类数据质量元素和非空约束、值域约束 和领域知识;规定了七项评估指标和每个评估指标的计算方法;规定了数据质量分析与评估的体系结 构模型以及评估流程。本标准能够对关系数据库或数据集的数据质量进行控制与评估。 SY/T7005—2014 数据质量控制与评估原则 1范围 本标准规定了对石油行业信息系统关系数据库数据质量控制方法、数据质量评估原则、数据质量 元素分类、数据质量约束规则、评估流程、评估指标以及评估算法。 本标准适用于石油行业各种关系数据库的数据质量控制与评估。 规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T15237.1一2000术语工作词汇第1部分:理论与应用 SY/T6227—2005 5石油工业数据库设计规范 SY/T6705—2007 石油工业数据元设计原则 3术语和定义 下列术语和定义适用于本文件。 3. 1 模式 schema 数据库中数据的逻辑结构和特征的描述,用来反映数据的结构及其联系。它既不涉及数据的存储 和硬件环境,也不与具体的应用有关,一个数据库只有一个模式,模式也称为逻辑模式。 [SY/T6227—2005,定义2.39] 3. 2 entity 实体 任何具体的或抽象的事物,包括事物间的联系 3.3 关系 relation 关系模型中的一张二维表。 [SY/T6227—2005,定义2.24 3. 4 元组 tuple 关系模型二维表中的一行即为一个元组。 [SY/T6227—2005,定义2.25] 3. 5 数据元素 dataelement 用一组属性描述定义、标识、表示和允许值的一个数据单元。 [SY/T6705—2007,定义3.1] 1 SY/T7005—2014 3. 6 数据 data 信息的物理存储形式,是计算机能处理的各种事实、数字,字符等各种符号的集合。 [SY/T6227—2005,定义2.2] 3. 7 属性 attribute 实体或联系的性质的抽象表示。 [SY/T6227—2005,定义2.16] 3. 8 域 domain 属性的取值范围称为该属性的域。 [SY/T6227—2005,定义2.17] 3. 9 属性值 fattribute value 属性按着属性域约束取的值。 3.10 对象 object 可以想象或感觉的世界的任一部分。 [GB/T15237.1—2000] 3. 11 元数据 metadata 定义和描述其他数据或过程的数据。 3. 12 元模型 metamedel 关于模型的模型。这是特定领域的模型,定义概念并提供用于创建该领域中的模型的构建元素 3. 13 深度性 depth 用于测量实体或事件的历史量。深度性可用实际深度、期望深度和深度性满足程度等指标来 体现。 3. 14 实际深度 actual depth 在查询到的元组中随机取值的实际深度。 3. 15 期望深度 desired depth 描述随机元组取值的平均深度。 3. 16 评估指标 assessment standard 在评估过程中所遵循的评估规则。 数据质量控制方法 t 本标准规定了两种数据质量控制方法,一种是从技术角度对数据质量的控制,另一种是从管理角 度对数据持量的控制。两种控制方法两者缺一不可。 SY/T7005—2014 4.1控制数据质量的技术规范 4.1.1数据采集规范 在数据采集规范中对所采集的数据集名称、采集的数据、采集的时间、采集的周期、采集的责任 人等各个方面进行规范定义,以便保障所采集数据的规范性。 4.1.2数据审核规范 审核的对象是采集人员提交的采集内容,主要对采集的内容、采集岗位人员进行一个量化审核, 审核的周期是随着采集周期而制定的,在采集之后的一段时间之内要对所采集数据进行审核,审核通 过之后,才允许数据真正进入到数据存储中去。如果审核不通过,则将数据反馈给采集用户,重新进 行数据的采集或校正,之后再进行重新审核,直到通过审核才能最后归档到永久存储中去。 4.1.3考核规范 在数据采集和数据审核阶段,实时控制员工的工作情况以及当前数据的质量。确认每一个采集的 数据集提交时间和审核时间,采集人员和审核人员要保证在规定时间内完成相应的数据采集工作和数 据集的审核工作,如果超出规定的时间或完成的准确率低下,那么要通过对员工量化考核评分机制来 对员工进行管理。 4.1.4成立数据质量管理队伍 4.1.4.1 制定指标 通过分析具体的业务数据,制定相应的数据质量约束和质量评估指标。 4.1.4.2质量的监督和控制 在数据质量控制过程中,主要通过分析具体的业务流程,利用系统自动的对数据采集、数据审核 等过程进行有效的监督和控制,来实现数据质量的控制 4.1.4.3制定量化结果 在数据的整个生命周期中,对数据质量进行控制,制定量化评定结果。 4.1.5定期总结 定期开展数据质量管理小组例会,总结每一阶段对数据质量控制的工作情况。 4.2控制数据质量的技术规范 从技术角度实现对数据质量的控制,定义数据质量元素以及评估指标,包括7个数据质量元素与 7个评估指标:准确性、及时性、完整性、一致性、关联性、深度性和穴余性。 5数据质量评估规则 5.1数据质量评估模型 数据质量控制与评估模型是一个四元组: 3

.pdf文档 SY-T 7005-2014 数据质量控制与评估原则

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
SY-T 7005-2014 数据质量控制与评估原则 第 1 页 SY-T 7005-2014 数据质量控制与评估原则 第 2 页 SY-T 7005-2014 数据质量控制与评估原则 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-09-09 01:50:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。