中国石油数据治理建设项目

基于ReiKing数据服务和治理平台实现如下功能:

202021113645365.jpg

1、数据架构管理功能要求
(1)数据资源目录管理功能
    数据资源目录提供集团公司全局数据目录的统一管理,通过建立数据资源多级分类,定义和识别所属领域的数据资源内容信息,实现各业务主题域的资源导图。支持包含但不限于以下:
●分类层级管理(必选功能):支持按集团整体角度划分数据资源分类,对资产分类建立资源分级,形成一套集团级资源结构树。资源分类管理应包含资源层级设置、资源目录结构维护、目录快速定位、资源目录批量导入导出和目录分发等功能;
●标签管理(必选功能):用户可以自定义多维度标签管理,并建立维度标签与资产分类的映射关系,通过查看维度标签的方式展现不同维度下的数据资源内容;
●个性主题导航(非必选功能):支持按业务要求,以最贴近用户使用习惯的方式搜索、展示符合数据访问权限范围的数据资源信息。支持根据用户角色的不同,按图形化、多视角方式展现主题全貌。提供多维标签内容过滤、目录标题名称与描述的中英文切换。支持用户固化查询条件等方式形成个性化主题数据资源目录。资源目录可导航直达数据模型、数据质量、数据标准、等各类信息资源,支持钻取查看不同层次细节信息;
●实体匹配识别(必选功能):支持将存在于大量的业务流程和统建项目系统中零散的、不同层级结构的信息,利用信息集中整理、数据匹配辅助、名称合并等手段,识别出数据实体,并将数据实体与数据资源目录关联。
(2)数据模型管理功能
    数据模型是企业中重要的数据资源,是数据治理中数据架构的核心,内容包括逻辑模型和物理模型。逻辑模型涉及所有业务概念命名和数据规则的统一定义。物理模型是集团公司统建信息系统的物理模型快照,并在平台形成统一数据导图。通过逻辑模型与物理模型之间的转换和映射关系,方便业务人员与技术人员的应用。支持包含但不限于以下:
●逻辑模型管理(必选功能):实现针对数据实体的逻辑模型的维护管理功能,包括逻辑模型的创建、变更、查询,以及逻辑模型的版本管理、批量导出和批量导入等;
●物理模型采集(必选功能):实现针对数据实体的各系统物理模型的收集,物理模型收集支持采集与报送两方式,采集是利用独立的元数据采集工具,获取集团各项目系统中的物理模型。报送是用户通过PDM模型或Excle模板的方式提交物理模型,通过加载、映射、分类形成统一的物理模型映射库。支持从物理模型反向生成指定类型的数据库DDL脚本;
●关系映射(必选功能):基于统一的数据逻辑模型,维护各系统物理模型与逻辑模型的映射关系。支持通过Web界面拖拽的方式建立模型属性的映射关系。支持从数据库外键索引、ETL工具(如:DataStage、PowerCenter、kettle)、ESB工具中获得流转关系;
●监控与分析(必选功能):当有数据模型发生变化时,应建立预警机制,分析影响的数据模型和相关系统,形成影响分析评估报告,并由数据归口部门发布,公示变更内容,对于发布的数据模型需要记录版本信息。
●动态模型配置(非必选功能):支持逻辑模型、物理模型以及模型字段的展示,可以实现动态配置和动态扩展,可最大限度的满足模型的详细内容描述和关联内容的展示。
(3)数据标准管理
    数据标准管理的数据对象包括业务规范、管理规范、技术规范和字典词根库标准、命名规范、维度值域等,需要统一数据规则和定义说明;数据标准需涵盖国家标准、行业标准、企业标准、以及各信息系统存在的事实标准,并借助技术工具和人工甄别将这些标准的内容转化为系统可识别的数据标准化校验规则。
●标准模型管理(必选功能):通过标准模型定义实现各数据属性的标准规范管理,包括各数据属性的业务规范、管理规范以及技术规范等相应内容的维护管理。提供数据标准的引用关系维护和关联显示。支持标准与数据模型的关联定义与展示。支持标准附件文档上传,并关联到具体的标准中;
●数据属性值域管理(必选功能):实现各数据属性的值域维护管理,支持从技术规范中选择值域字段,按模板批量上传方式建立和维护值域数据信息。支持定时从数据源中采集数据实体的值域数据。通过对值域的维护定义属性的值域内容,规范数据的属性值;
●版本管理(非必选功能):实现标准规范的版本管理,便于记录标准规范的版本变更历史和变更信息,同时存储不同的标准规范版本;
●变更管理(必选功能):实现标准规范内容的维护流程管理,包括标准查询、标准变更申请、审批、发布等流程;
●标准执行(非必选功能):支持将数据标准落地为指定的数据质量规则,定期对各信息系统数据进行质量稽核,并记录数据标准在各信息系统中的贯标情况。
●落标管理(非必选功能):支持字典词根库标准、命名规范标准、数据标准管理和落地,以及标准落地的总体和详细报告,例如可以按业务系统、主题、标签等维度分类展示
(4)数据源管理
    梳理数据资源目录中各数据属性的数据分布情况,认证可信的数据源头,明确属性的数据流向。
●可信源认证(必选功能):实现对可信数据源的注册、变更以及发布功能。提供可信源认证流程维护,支持多方主管部门的联合会签审批。支持可信数据源的查询,显示数据实体属性字段的可信数据源头。
●数据分布管理(必选功能):实现对各系统中属性分布情况的展示,提供属性分布的内容维护和变更功能;
●数据流向管理(必选功能):实现对数据属性在信息系统间流向的维护和变更,自动梳理数据间流转,判断多头录入,并提供图形化展现。
2、数据管控功能要求
    数据管控是数据治理体系中的重要内容,系统通过对数据质量评估的规则管理,开展数据质量稽核,对数据质量问题的管理和监控,实现对集团各生产运营、经营管理、办公管理和决策支撑类各项目数据质量的管控。
(1)规则库管理功能(必选功能)
    规则库管理应实现对数据质量规则管理、质量评估模型管理和质量管控等级的内容管理,形成数据标准化清洗规则和数据校验规则,规则库是由指定的业务人员根据数据标准在Web页面中进行统一管理与维护,为后续数据质量验证和清洗提供依据。
    1)规则操作要求
●用户可通过Web页面对规则进行定义和查询;支持规则库的批量导入/导出的功能,可将现有的大量规则通过Excel模板导入规则库,无需逐条重建;
●为了降低规则应用的复杂度,规则库提供按分类/分组管理,并抽象易于识别的规则模板。业务人员勾选好规则模板、定制化规则参数、完成与数据模型字段关联、规则可用性测试后,系统能自动生成数据质量校验脚本和稽核策略。
    2)规则内容要求
●校验规则:支持对单表、多表、单行或多行数据质量检查规则的配置。可针对数据完整性、数据一致性、数据关联性、数据实效性、数据准确性、业务平衡性等规范性规则设置。支持数据完整率、空值率、数据重复率等数据异常波动率规则设置。
●标准化规则:支持通用值转换规则,支持空值转换、特殊字符转换、大小写转换等;支持针对不同的数据类型(日期、数值、百分比、货币)进行格式标准化规则;支持字段转换规则,如:字段合并、字段拆分等;支持字符串替换规则,如:正则替换、字符串拆分取值、位置取值、删除多余空格等;引用表替换规则,如:将内容替换为引用表值,删除具有引用表的内容等。
●排重规则:支持单字段或多字段的精确匹配规则定义;支持字段值去掉语义分隔符(*-+、/等)后进行相似度匹配;支持选择匹配算法、优化阈值设置和去除高频词设置等模糊匹配规则的定义。
●脱敏规则:按安全要求定义脱敏规则,实现对数据的脱敏,如:加密、遮挡、混淆、值替换等脱敏规则定义。
    3)规则集成要求
●支持将数据标准、数据模型转换为数据校验规则,人工修正后形成数据质量校验规则库。
●支持外部系统利用API调用和WebService接口方式维护规则库功能。
●支持对规则内容的变更订阅功能。
(2)数据质量稽核功能
    数据质量稽核,基于规则库生成质量评估模型实例,调用数据质量评估引擎服务进行数据质量评估,对数据进行标准化和数据质量检查,产生数据质量测量结果并根据考评指标进行打分。
    1) 数据质量校验(必选功能)
    数据校验功能实现对数据自动规则校验功能,包括但不限于以下功能点:
●依据规则库的校验规则,针对不同数据来源的历史数据进行增量、全量、抽样数据进行质量校验功能;
●支持实时、异步方式的数据校验,数据自动规则校验可发布成服务供同步/异步调用;
●可以定义校验后的输出结果,包含输入字段、详细错误描述信息等,支持校验结果的持久化保存或通过服务方式进行发布;
●当一个时间窗口未完成数据质量检查时,不影响下次检查任务的正常执行。对规则库进行正常的规则维护如增删改时,不影响数据校验功能的正常运行;
●内置丰富的常用的数据质量校验算法,支持客户快速应用和扩展,满足中石油针对各类统建项目中数据不同校验规则的客户化要求。
    2)数据标准化(必选功能)
    数据标准化实现数据自动规则转换功能,包括但不限于以下功能点:
●依据规则库的标准化规则,能够参照数据转换规则库所指定的格式和值,对不完整数据、不合规数据、错误数据等异常数据进行纠正后再进行质量校验;
●支持通用数据转换功能,可针对不同的数据类型(日期、数值、文本、枚举)等进行自动的标准化,同时也支持对复杂标准化规则的在线扩展功能。
●支持外部系统通过服务调用的方式实现单独的数据标准化应用。
    3)数据排重(必选功能)
    产品提供高效的数据排重引擎,实现对数据排重检查功能,包括但不限于以下功能点:
●依据规则库的排重规则,支持单个表中待排重数据的批量排重功能,提供预置的算法、规则模型,对批次内数据和全库数据进行精确与模糊识别;
●支持在不同数据源的多张库表之间进行精确与模糊识别;
●支持按分类方式对数据进行分组排重,重复数据指在同一分组下有效;
●模糊识别的结果数据应有相似度分值,以区别不同记录的相似程度。可根据不同字段设置灵活的打分机制,可以设置完全匹配和部分匹配的阀值;
●排重结果可按相似度排序、排重结果可以落地可导出。能够将数据排重检查发布成Web服务,外部系统可以通过服务调用的方式获得是否数据重复。
    4)数据脱敏(必选功能)
    对数据中的敏感数据进行特殊化处理,保证数据的安全共享,包括但不限于以下功能点:
●依据规则库的脱敏规则,对待稽核数据进行数据脱敏,脱敏输出结果同数据标准化和数据质量检查结果一同持久化落地。
●提供单独的数据脱敏工具,实现对数据内容的脱敏,例如,全字段、文字部分内容(数字、特殊词汇等)、非结构化文件等。
    5)数据剖析(必选功能)
    提供全面灵活的数据剖析与探查能力,针对不同数据源分析数据的格式规则和数据分布情况,通过对数据质量的多维度分析,能帮助使用者快速而直观的发现数据规律和问题。包括但不限于以下功能点:
●基于统计方法,提供数据结构、内容、规则和关系概况,通过返回一组有关数据的标准特征,这些特征包括数据类型、字段长度、取值分析,格式模式,分布分析,空值统计,重复性统计、跨列和跨文件的数据关系等标准指标。
●可针对全部数据进行剖析,也可指定采样范围对部分数据进行剖析;
●支持针对数据剖析的结果进行下钻,获得更加精细的剖析结果,剖析可自定义过滤条件,方便查看不同组合的剖析结果,结果可导出文件、WebService等;
●可对一段时间内多次分析的结果进行变化趋势的分析与展现。
    6)作业管理(必选功能)
    数据质量产品提供作业管理功能,实现作业配置管理和作业队列管理,包括但不限于以下功能点:
●支持复杂作业调度的策略设置与导入导出,包括时间,串并行,作业关系和调度异常处理等。能够修改现有作业的数据库连接、组合不同的数据规则转换、校验、排重、脱敏等功能形成数据处理作业,部署到作业管理中;
●支持多种方式的作业触发,如时间周期、Web Service方式,命令行方式,API方式等;
●通过web页面监控作业的运行状态、日志、通过作业调度,分配资源,配置执行时间的监控。用户可通过多种口径(按创建时间、按作业类型、按运行时间等)查看上述监测结果详细信息。提供对作业中每个步骤执行时间的监控,对每个任务处理数据情况的监测,对所有操作的日志记录及查看功能;
(3)数据质量监控功能(必选功能)
    实现数据质量监控,跟踪质量评估测量结果、发现质量变化趋势,及时对质量异常问题预警。
    1)数据质量监控
●使用定时轮循机制,对不同数据对象的增量数据或指定范围的数据进行自动的数据质量分析,并形成数据质量关键指标数据和监控报告;
●根据预定义的阈值建立预警功能,一旦检测到数据质量异常情况,立刻进行报警触发,自动通知到相关负责人,并实时监控后续情况;
●能够提供基于各质量检查维度的数据质量变化趋势图、计分卡和数据质量评测仪表盘。
3、数据服务功能要求
    数据服务是数据治理平台成果的输出,提供全景化、动态化、图形化的数据资源展示、定位与获取功能,通过数据可视化手段帮助用户直观的了解数据。建立完整的数据治理评估服务,通过一系列评估指标,依据数据质量稽核结果,持续跟踪质量改进情况,支持集团公司数据质量的提升。
(1)数据可视化
    通过对企业资产的识别,将企业数据资源按层次划分,形成企业的数据资源目录。支持包含但不限于以下:
    1)数据字典(必选功能)
●以数据资源目录为结构导图,提供包含数据标准、数据质量管理规则、可信数据源等信息的检索、搜索与展示服务;
●可提供多种功能集成方式,如:SOAP/RESTful/ WebService等。
    2)数据地图(必选功能)
●提供数据资源在企业内的不同视角下系统维度、主题域维度、业务板块维度的全景分布视图,可随业务需求进行切换。
    3) 血缘分析(必选功能)
●提供数据在业务中流向、数据在系统间的流向以及数据的可信数据源信息,形成数据在企业内流向的地图,针对用户关注的实体、属性进行血缘分析,统计上下游层数、关联数,并可逐级展开。
(2)数据治理评估(必选功能)
    通过按照不同需求建立相关评估指标,针对数据模型配置相关指标形成数据评估模型,并将评估模型分发到相应的物理模型中形成评估任务,最终汇总评估结果并以视图的方式进行展示。
    1)数据治理评估
●数据质量评估:支撑对数据质量的评估内容管理,构建数据属性的质量评估模型,定义度量指标和质量管控等级。通过评估对象、评估系统和度量指标进行不同维度的组合,支持数据健康360视图,可从标准化、质量、能力成熟度、冗余度等方面展示
●提供满足不同业务视角的数据质量评估服务,生成数据质量明细报告和综合报告;定期对问题系统进行评估,跟踪质量改进情况,并形成数据质量跟踪报告。数据架构设计评估:实现各信息系统通过调用评估服务,以规范的数据标准库为基准对各系统的数据模型等架构设计内容进行评估。
    2)问题跟踪管理
●将业务部门工作与检查发现、客户反映、系统运维暴露的数据质量问题进行系统登记与维护,形成质量问题知识库,将问题在线派单给相关责任部门或者个人,也可登记通过主动或手动数据质量校验规则,发现的数据质量问题。
●基于知识库管理系统或其他手段,支持用户精确定位数据质量问题,包括异常位置、发生时间、影响范围、问题的责任和利益相关方,实现数据问题全链分析。
●根据数据质量问题的类型、影响性与紧迫度等因素,定制数据质量问题整改流程及细化整改活动,流程内容包括制定整改方案,实施整改,检验整改结果等过程,整改方案通过在线审批流程完成后,方可进行实施整改
4、数据集成功能要求
    数据集成提供消息注册功能,实现对系统外的数据分发和采集,通过数据集成支持源系统、数据仓库对应用整合的需求,实现定时自动的采集物理模型形成数据元模型。
(1)数据采集功能(必选功能)
    1)数据探查
●支持从Oracle/ SQL Server/ PostgreSQL/ MySQL/DB2 /BW/HANA/Hbase /NoSQL等主流数据库中探查元数据信息。
●支持从Rational Data Architect,ErWin,PowerDesigner,Oracle Designer等数据建模工具中获取元数据信息;
●支持XML进行元数据交换,支持对象级元数据的导入和导出。
●支持采集粒度设置,包括:字段、表、视图等,针对各采集接口,均可拿到最细节的元数据;
    2)数据整合
●整合数据探查任务形成的数据模型信息,通过智能识别和人工加工,将数据模型信息转换为各业务系统的数据架构信息。
    3)作业调度管理
●实时监控数据源探查任务;
●支持对任务的人工干预,例如,终止、重启等;
●提供定时任务。
    4)异常处理
●断点续传功能应在作业停止后再运行,应能从上次停止的位置开始继续进行实时增量数据采集;
●自动恢复功能支持当作业发生异常中断后,能自动重启恢复,无需人工干预,且支持从异常点自动恢复处理后续数据;
●支持自定义重启点,即用户可自定义从某个位置或时间点开始重新采集增量数据;
●提供内置功能实现捕获错误/异常数据进入任意指定的数据目标端的功能等
(2)数据分发功能(必选功能)
    外部系统可通过信息系统注册订阅或查询,数据治理平台中内容。支持包含但不限于以下:
    1)数据发布
●当如属性值域、数据规则、数据模型等发生变化,提供推送的形式将变更内容发送到相对应业务系统中。
    2)数据访问接口
●支持接口编排采用在线可视化方式,通过拖拽组件进行接口的编排,同时支持请求模式(post/get)、多种请求类型(同步、异步)、多种返回类型(json、xml)、多种接口调用方式(SOAP/RESTful/WebService),且支持签名认证
●支持接口的在线测试能力,在线测试返回接口执行结果、相关状态信息
●提供接口访问审批制流程,外系统通过线上申请访问接口请求,经审批后开放相对应接口,保证数据访问可控。
●提供对接口的调用测试、返回记录条数、失效时间进行控制;支持提供黑白明白管理,禁止或者允许对应的ip地址进行服务访问
    3)信息系统注册
●用户线上注册业务信息系统,只有注册过的业务信息系统才可以申请访问接口请求并成为数据发布目标端;
●对注册业务信息系统设定允许访问的数据范围,例,数据实体、数据属性字段等。
5、基础平台功能要求
(1)门户(必选功能)
●提供消息管理功能,支持发布人工通知和系统消息自动发布,包括消息提醒功能,并可以外部对接F5系统。
●个性化定制功能,支持首页及功能页的多种内容框架划分。支持数据治理门户的多种主题风格配置。
●菜单管理功能,支持多级菜单配置与展示。支持自定义功能导航菜单的配置与展示。
(2)变更管理(必选功能)
●支持审批流程环节动态配置和扩展、审批人员可按角色、制定人员设置
●支持数据架构、数据规则、属性值域的变更申请。
●支持待办事宜、经办事宜、已办事宜的事宜管理功能。
●对业务表单建模,支持多维表单和表单校验。
(3)监控管理(必选功能)
●提供贴源物理模型变化、属性值域变化的变更监控功能
●提供数据发布的状态监控,发布重试操作
●质量稽核引擎、相关中间件等的监控、分析、在线启停、告警(消息通知/邮件/短信等)
(4)智能搜索(必选功能)
●提供数据架构信息索引、条件搜索和结果展现功能
●支持基于搜索结果增加同类词推荐、关联性推荐
(5)体系管理(必选功能)
●对用户、组织机构和系统进行访问和操作授权管理,支持到按钮级授权
●支持多团队接入管理,支持多用户在同一团队下模型开发、质量稽核和数据资源的管理,支持按照团队进行数据库、模型、字段的授权管理
●建立业务流程的模板,提供流程状态监控功能
●支持结构化、半结构化、非结构化数据文件的管理功能
(6)系统管理(必选功能)
●支持多租户,提供用户、组织机构和权限的集中维护和管控
●支持集中管理数据治理平台的配置文件内容
●记录操作日志,错误日志,提供日志审计查询


企业简介

中国石油天然气股份有限公司(简称“中国石油”或“中石油”)是中国油气行业占主导地位的最大的油气生产和销售商,是国有企业,是中国销售收入最大的公司之一,也是世界最大的石油公司之一。


项目背景


中国石油

中国石油

行业:能源化工
地区:北京
产品:数据中台
场景:数据中台
年份:2019
特点:分布式模式
咨询留言
电话联系
服务热线
400-608-2558
服务热线
400-608-2558
微信沟通
微信扫描二维码,立即在线咨询
微信扫描二维码,立即在线咨询
免费试用

咨询留言

姓名 *
电话 *
验证码 *
留言 *