导 师: 张凌;缪翀莺
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 电信经营分析系统利用电信业务过程中产生的大量数据,对其进行挖掘和分析,为电信运营商的决策和内部规范管理提供充分的依据。在系统运作的过程中,数据质量问题直接影响分析结果,因此对电信经营分析系统的数据质量进行控制,具有重要的实用价值。 系统初期的数据源采集处理只有一个转发功能,数据源前端机接收来自各电信生产系统提供的文本文件数据,然后转发到系统的数据源后端机,在这过程中人工进行粗略的格式检查,再提供给ETL服务器处理。随着系统的不断扩大,数据源变得越来越多,并且数据源格式也呈现多样复杂化,初期的处理策略已经跟不上系统的发展,给系统的运作造成了很大的压力。在系统运作过程和数据应用时出现的数据质量问题难于定位,需要花费大量的人力去查找出错或异常的原因,严重影响到数据的处理效率;此外还会降低用户对系统使用的信心和热情。 本文根据各业务的数据源格式、业务特征和上传规律,结合实际运作的经验,设计了一个高效的采集模块,来完成数据源的采集、检查和监控。为了提高采集处理的效率,在采集处理流程上进行模块细分,每个模块完成特定的功能,然后采用流水线型并发式处理模式,充分利用系统的资源。将规则引擎嵌入到复杂繁琐的文件检查处理中,通过配置相应业务的检查规则,完成对数据源的数据质量检查及控制,从文件、记录及字段三个级别对文件进行扫描,方便和减轻了数据质量检查的工作。通过高效的采集程序,及时地发现和协助解决问题,缩短了整个电信经营分析系统的数据处理时间。 数据质量子系统的实施,提高了系统运作的效率,有利于进一步提高电信经营分析系统的数据质量,从侧面也可协助源系统对数据质量的改善。
分 类 号: [F626 TP317]
领 域: [经济管理] [自动化与计算机技术] [自动化与计算机技术]