您的位置:首页 > 技术园地 > ETL技术 > 数据清洗

数据清洗

由于数据输入错误、错误记录、丢失字等各种因素的存在,基础数据库原始数据不可避免的存在噪声数据,这些垃圾数据对数据的分析和处理工作没有任何意义,为此,必须在数据库系统中进行数据清洗,通过数据访问和整合,依据对奇异值、缺失值等错误数据完整的数据清洗方案,对原始数据进行反复的清洗和整理,最终为形成专业的分析数据库提供支持。为系统各种应用提供统一的数据访问基础。主要实现以下功能:

  1. 1)通过API调用方式能够集成数据处理系统中的审核关系。
  2. 2)通过虚拟列技术和动态规则技术,系统能将数据清洗要求,转化为易于理解的逻辑表达式,可视化配置、修改、删除编辑数据清洗逻辑表达式,提供数据清洗逻辑表达式的添加、编辑、删除等功能。
  3. 3)系统运行时数据加工服务通过虚拟列技术使用数据清洗逻辑表达式,对原始数据进行查询、计算、判断、处理,最终完成对噪声数据的修正、删除等清洗工作。
  4. 4)可选择不同的数据清洗逻辑表达式,来确定数据清洗的单位和内容,可针对某一部分数据进行数据清洗。
  5. 5)数据清洗规则(包括逻辑表达式)以XML方式保存,方便数据清洗逻辑表达式的导入和导出。

 

 

如上所示,睿金ETL采用基于规则的数据清洗方式,清洗规则包含了清洗逻辑表达式。存在噪声数据经过指定的的规则清洗处理成为干净的数据提交到目标数据库中。清洗规则通过管理工具可视化定义,清洗规则可以是:

  1. 转换清洗规则
  2. 翻译替换清洗规则
  3. 自定义清洗规则

基于转换清洗规则的清洗和基于翻译替换规则的清洗是常有的清洗方法,ReiKing数据整合产品已经工具化。同时,也提供了清洗转换处理接口、清洗转换输入界面接口,方便用Java语言扩展其他的清洗处理。

对于存在噪声数据字段,经过清洗后以干净的数据加载到目标数据库中。对这些噪声数据字段既也可以整字段清洗,也可以字段内清洗。

下图是数据加工服务的清洗规则添加、编辑、删除操作界面。数据加工服务如表转换数据加工服务、表路由数据加工服务、表-文件转换数据加工服务、文件-表数据加工服务的清洗规则的定义是通过虚拟列的定义方式实现的,虚拟列是数据转换和数据清洗的加工过程中的数据载体,对应相应的数据转换和清洗方法。如下所示,在虚拟列列表中按鼠标右键,弹出清洗规则定义操作浮动菜单,点击添加虚拟列、编辑虚拟列弹出清洗规则定义对话框。

具体介绍一下: