赛迪网 > 产业和信息化 > 高端对话 > 文章

Informatica但彬:数据质量管理助力达成目标

发布时间:2012.01.10 14:50      来源:赛迪网     作者:赛迪网

【赛迪网讯】数据是企业数据中心的重要资产,获取并维护高质量数据,对高效的IT和业务运营至关重要。Informatica中国区首席产品顾问但彬近日在媒体交流会给记者上了一堂生动的数据质量管理课程。

Informatica中国区首席产品顾问但彬

Informatica的数据管理目标

调查显示,信息的价值平均为企业价值的37%,信息已经成为企业最重要的资产之一,越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够;结构或非结构数据使整合有困难;管理层面的人员变动引发的影响;数据标准不能统一,相关规范不完善造成对数据理解的不充分等等。

据但彬透露,Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。

数据质量管理的整体框架

但彬认为,数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部一些系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。

但彬对记者表示,从数据质量整体框架和方法论上讲,首先要确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术支撑来达成目标,人、流程、技术三方面缺一不可。而设定最终目标前最重要的一件事是要了解现状,找出企业最关注哪些数据质量,通过记分卡对现有数据进行评估,同时还要进行实时的监控,从流程、时间角度发现数据的变化,了解现状后确定的目标才是可信、可完成的,而不是天方夜谭式的水中月、雾中花。

他表示,数据质量理论上不是完全可控的,要实现数据质量提升,必须要做到指标的可量化,通过量化指标实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵,包括:完备性(信息是否填写全面)、符合性(数据是否按照标准格式进行填写)、一致性(是指内部冲突,同一系统中两个字段间相关推导和约束关系)、准确性(包括数据是否真实有效和数据是否及时更新)、唯一性(多条信息是否相同和一致)以及完整性(从约束性和参考性方面考虑,数据相互间的参照关系)。当然,企业是要根据自己的业务需求来确定考量数据质量的指标或体系,并不一定必须局限在这六个方面。

构建数据质量处理流程

但彬对记者说,“一个完整的数据质量管理,是人、流程和技术的完美配合,才能达到我们数据质量管理的目标。那数据质量处理的流程是怎样的呢?对于数据质量的处理,我们把它分成两大部分,一是面向数据质量的分析过程,二是针对分析结果进行增强的过程。先要识别和量化数据质量,然后定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后就是实现质量提升的流程,把原有低质量数据变成高质量数据,并交付给业务人员使用。同时,在整个环境中,还需要有相关的一些监控和对比来评估是否达成了目标,决定是否需要进行新一轮的数据质量提升。这是一个周而复始、螺旋上升的过程,并不是一蹴而就,一次就可以解决全部问题。”

据但彬透露,通过Informatica构建数据质量管理主要分为四大部分。首先是Analyze andPrfiling,通过对现有数据的详细分析、描绘,来确定怎样对他进行处理和标准化;第二是Standardise\Cleanse,标准化和清洗更容易让计算机识别,比如数据可以通过什么样的格式进行限制和约束,进行怎样的交验就可以达到数据标准的要求,那些信息可以通过数据质点或者参考数据进行相关的标准化;第三是Match,标准化后要进行相关的数据匹配,解决数据重复性问题,并保证数据的唯一性;第四是Consolidate,将重复数据进行合并,最后运用到不同的系统当中。需要注意的是,在整个过程中我们都需要进行相关的监控。在我们日常数据中心的建设中,也可以对这几部分进行相关的延展或者精简来完善我们数据质量管理的过程。

但彬在会上还重点介绍了Informatica最具特色的模糊匹配技术。据其介绍,在数据匹配关联中,Informatica可以用到不同的匹配关联技术,比如在实现数据的精确快速匹配时,可以先对数据进行预览,查看两个数据的可匹配度是多少,再进行分析来确定这种匹配是否适用于此种数据的匹配过程。如没有精确匹配来保证匹配率,则可以采用模糊比对的方法,比如下图中,在人名比对中,可能因为拼音简、繁体输入问题造成一个人的数据信息不一致,王门骞的“骞”,一个是简体,一个是繁体,这两个字在计算机编码中并不一致,所以他们的名称并不相等,这时就要对他的名字进行模糊匹配打分,通过结果来分辩数据的可信度。比如设定0.8以上的数据为可信,那第两条王门骞就是可信的同一个人,而第二条陈东壁被判定不是同一个人。

最后,但彬总结说:“现在,很多企业的数据中心,不仅仅只是一个最单纯的面向数据仓库的数据存储中心,而是既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量需要从数据源端就开始进行治理,治理到业务交互的各个过程。包括PowerCenter、Data Quality、MDM Hub、Informatica 9在内的Informatica的数据质量工具,可以将所有的业务逻辑和规则变成相关的一些服务,由各个业务前端、各个业务处理过程中,对数据服务进行调用,进行相关的数据校验和数据清洗,这就是Informatica数据质量平台为企业数据中心建设所提供的支持和帮助。”

分享按钮
[发表评论][打印][进入博客][进入论坛][推荐给朋友]

更多>>