数据采集系统:数据加工可靠性

数据处理过程中,数据的可靠性是非常重要的,可靠性主要采取以下措施保证:

    系统可靠性处理

    • 可跟踪,记录处理的过程,可视化看到处理流程及状态,废弃数据的记录跟踪
    • 意外处理
      1. 意外技术信息记录,记录处理中的意外数据(包括意外的原因、意外数据)
      2. 意外补偿处理,在流程中设置意外补偿处理
      3. 支持断点续运行,下次运行从上次意外处继续执行。

    数据的可靠性处理

    • 数据加工服务支持事务处理
    • 数据日常增量处理采用可靠性处理机制

    消息队列的可靠性传输机制

    • 保证数据可靠性传输,不丢数据,不重复传送数据
    • 数据传且仅传一次。

    数据质量

    • 提供数据转换/清洗架构
    • 提供转换/清洗处理组件
    • 设计阶段方便定义清洗规则
    • 运行时,可以发现有问题的数据、记录相应的信息、支持数据清洗规则的在线修改