1. 用CRISP-DM模型来规范企业数据中心建设
上海烟草(集团)公司信息中心 郭亮
摘要 本文从CRISP-DM模型的介绍和企业数据中心建设存在的问题展开论述,结合理论模型和企业的实际,确定了在企业数据中心建设过程中需要重视的一些关键环节,以及在这些关键环节上的工作重点。
关键字 CRISP-DM模型 数据中心
一. 选题背景
根据企业信息化建设的发展规律,在大规模的管理信息系统建设完成以后,应用这些系统将会产生大量的业务数据,在大量数据通过信息技术被积累下来的基础上,数据应用和信息资源开发的需求也就应运而生。
上海烟草行业也遵循了这样的发展情况,近几年企业开始探索数据应用和信息开发工作,并以企业数据中心项目的建设作为载体,推进企业各个层面人员使用数据、分析数据。然而数据分析利用项目和管理信息系统项目是不完全相同的两类信息化项目,数据中心项目要实施好,企业除了需要具备一定的管理条件(如企业的氛围、人员的意识等)外,从信息化本身的角度来看,数据分析利用项目的管理方法也需要尽快的规范。
在这样的企业信息化建设的背景下,本文通过数据挖掘模型(CRISP-DM)从信息化本身的角度来提出规范企业数据中心项目建设的方法。
二. CRISP-DM模型
数据挖掘是通过自动或半自动化的工具对大量数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。在数据挖掘方面的模型很多,比较权威的有SPSS的5A法,即访问(Access)、分析(Analyze)、评估(Assess)、行动(Action)、自动化(Automate);SAS的SEMMA法,即抽样(Sample)、探索(Explore)、建模(Model)、修正(Modify)、评估(Assess)。二十世纪末,一些软件供货商和用户组织成立了行业协会,包括NCR Systems Engineering Copenhagen(丹麦)、Daimler-Benz AG(德国)、SPSS/Internal Solutions Ltd.(英国)和OHRA Verzekeringen en Bank Grep B.V(荷兰)。这个组织建立了数据挖掘的过程模型(即CRISP-DM,详见图一),该模型是目前业界权威的标准。
图一:CRISP-DM过程模型
[1]
understanding)、数CRISP-DM模型定义了六个过程,分别是:商业理解(Business
据理解(Data understanding)、数据准备(Data preparation)、建立模型(Modeling)、模型评估(Evaluation)、结果发布(Deployment)
商业理解阶段是理解项目的商业愿景和商业目标以及把商业目标转化为相对应的数据挖掘的问题,制定完成目标的工作计划。
数据理解阶段是着手对源数据的收集,鉴别数据的质量问题、从数据中发现隐藏的信息或探测臆想的数据子集。
数据准备阶段是在源数据的基础上运用建模工具建立最终的数据集。数据准备可能重复多次,其主要任务是使用建模工具来传输和清洗数据,包括表、记录和属性等。
建立模型阶段,多种建模技术被选择和应用,它们的参数被校对到最理想的数值。一些技术解决同样的数据挖掘问题,一些技术需要特定的数据格式,因此建立模型阶段有时也需要重新进行数据准备。
模型评估阶段,将从数据分析的观点建立了一个或一些高质量的模型。在配置这些模型前,最重要的就是对已经建立的模型进行彻底地评估,并回顾建造模型的每一个步骤,确定商业目标被完全地达到。关键目标是确定一些重要的商业问题是否被充分地考虑,最终决定数据挖掘结果的使用目的是否达到。
结果发布阶段,根据用户需要可能只是简单的创建一个报表,也可能是实现一个重复的、
复杂的数据挖掘过程。在大多数的情况下,模型应该由用户,而不是数据分析师来配置。然而即使分析师不配置模型,对他来说重要的是让用户预先理解所要执行的配置动作,目的是让用户使用创建的模型。
三. 数据中心建设存在的问题
与CRISP模型相比较,我们实施数据中心的建设过程中还存在一些问题,主要表现如下: 1. 以需求分析代替商业理解
在CRISP过程模型中,商业理解的重点是根据商业目标的要求找出存在的商业问题,并把商业问题转化为数据分析的问题,这一过程回答了“为什么要做的问题”。而我们的需求分析往往是从业务问题出发并转化为数据分析问题,这一过程回答了“怎么做的问题”。因此往往一些数据分析的案例被实现以后,发现没有实际的作用或者作用不大。这是因为业务问题解决的商业目标不清晰,也就是说选题发生了偏差。
2. 可行性研究中数据理解的执行还不规范
在CRISP过程模型中,数据理解是一个的过程,说明了数据理解在整个数据分析应用来项目实施过程中的重要性。我们目前在数据中心项目的可行性研究中只是很粗略地对源数据进行一些了解,比如了解源数据是来源于业务系统的数据库还是手工编制的Excel文件,数据大致包含了什么信息等。而没有对源数据进行细致的分析,数据质量问题的分析在可行性研究阶段根本未建立,因此项目建设中有时分析主题的数学模型建立了而缺少足够的数据支持;有时在项目实施的后阶段再去了解源数据的情况,造成了仓促将源数据导入数据中心,未建立源数据准确、及时提供的保障机制,造成数据分析主题应用后,数据质量较差。总之数据理解在目前的项目实施过程中有这部分的工作,但不是在项目可行性研究阶段开展,而是在项目实施阶段开展,使数据中心项目的实施有一定的偏差。
3. 数据准备不充分
在CRISP过程模型中,数据准备是一个的过程,且需要与建立模型的过程互动,通过多次的数据准备,使数据能够被所建立的模型使用。而目前企业在数据中心的建设中,业务人员和数据中心建设的人员不熟悉业务系统数据库中源数据的情况,无法对所需要的数据做准确的描述,而熟悉源数据的人员又不熟悉数据中心建设的需求,因此数据准备阶段的工作量很大,协调成本很高。
4. 模型评估机制未建立
目前对模型的评估主要是功能的实现情况,检查所需要的报表、图表、数据是否按要求建立,由于没有很好地落实商业理解阶段确定商业目标并根据商业目标提出商业问题的工作,因此对模型的评估不能真正体会其为商业目标服务的作用,只能停留在技术的层面上。
四. 数据中心建设的实施要点
根据CRISP-DM过程模型以及目前企业数据中心建设所存在的一些问题,我们不难看出数据中心项目的实施不仅有方,而且还有一些关键的实施要点。现结合模型和企业数据
中心建设的实际对进一步规范数据分析类项目的建设提出如下实施要点:
1. 在项目的管理论证前抓好商业理解阶段的工作
商业理解是确定业务目标并根据业务目标的要求发现尚存在的业务问题。这个环节就是需求提出和初步分析的过程,与我们熟悉的管理信息系统的建设相比较,在数据中心的建设中其需求理解的任务是不同的,对于管理信息系统来说关键是要解决“做什么”和“怎么做”的问题,而对于数据中心来说关键是解决“为什么要做”的问题。因此数据中心项目在商业理解阶段核心是要正确把握好业务目标以及需要解决的业务问题,并将这些业务问题转化为数据分析的问题,这就是将人的经验(隐性知识)转化为显性知识的过程,需要回答“业务目标清晰吗?”“业务问题是为实现业务目标服务的吗?”“业务问题的解决是可以被量化的吗?”等问题。虽然这两类信息化项目的需求理解阶段都是项目建设的关键环节,但是相比较,数据中心项目在这一阶段更需要引起高度的重视,因为是解决为什么的问题,一旦这一问题业务部门没有思考好、信息化部门没有理解好,数据中心项目将会在开始阶段就埋下了失败的因子。
2. 在项目的立项前把数据理解作为可行性研究的重要工作
数据中心项目中数据理解阶段的任务是从数据的完整性角度对项目做可行性研究,关键是回答“数据分析所要解决的商业问题有数据支持吗?这些数据在哪里可以被收集到?”数据理解阶段的工作是商业理解的延续,也是数据准备的前导,承上启下,非常重要。通过可行性研究数据如果没有或者质量存在问题,那么在商业理解阶段确立的业务问题将没有条件通过数据分析的手段被解决。这时应该重新确立所要解决的业务问题,避免接下来各阶段数据分析工作的失败。在确认数据条件具备以后,数据理解阶段还需要进一步定义数据中心的元数据,包括描述源数据,定义源数据传输、抽取、清洗、加载标准、数据周期,确定源数据的标准化要求、元数据的使用周期、元数据的共享范围等。
数据中心元数据是有使用寿命的,这并不是说将元数据删除,而是对同一分析主题中使用频率不高的数据做一定的处理,以优化分析应用的性能,这些使用频率不高的数据被处理以后,如要查看则需要有一段时间(1天或1周等)来再生这些数据。
数据中心的数据是为共享而存在的,这是数据中心数据的一个主要特征,要实现数据共享,一方面可以借助技术手段,提供数据导航系统,另一方面在数据理解阶段就要有意识、有目的性地确定元数据的共享范围。
3. 在数据准备阶段就建立提高数据质量的标准
对于企业数据中心来说,数据质量(完整性、准确性、及时性)从某种意义上说比建立的模型质量更为重要,数据质量不好、建立的模型再好也只是一个错误的结果。数据质量受两个方面的因素影响,一是源数据缺失、二是源数据与数据中心元数据之间传输、抽取、清洗、加载等相关机制的不健全。第一种情况在数据理解阶段就可以被分析出来并加以规避,第二种情况需要在数据准备阶段建立完善的提高数据质量的标准。获得了所需要的数据只是
[2]
[3]
开始,而并不意味着结束。在数据准备阶段要使源数据相对固化和稳定下来,表结构、字段的属性、长度和含义、源数据与数据中心元数据之间的传输、抽取、清洗和加载方式都要处于相对的静止状态。对以上这些信息的变更需要有一套严格的工作流程加以规范,使相关人员及时知晓并维护好数据中心的元数据。
建立数据中心元数据的校对机制,在准备数据的同时要跟业务人员共同商量数据中心元数据的校对机制,数据中心的元数据来源于业务系统的源数据,业务人员是如何判断数据中心元数据的准确性的,这样判断方法在数据准备的同时须建立依托技术手段的自动校对程序并建立预警功能。
总之,在数据准备的同时,必须提高数据质量和完善数据校对机制。 4. 加强对分析模型的评估工作
分析模型评估的目标就是验证分析模型是否解决了在商业理解阶段所确定的业务问题。通过加强商业理解、数据理解以及数据准备阶段的工作,为分析模型的评估提供了较为良好的环境。同时在可行性研究阶段就淘汰了一些不具备条件的分析需求,这也对建立高质量满足需求的分析模型提出了更高的要求。从目前的实施经验来看除非高度综合类的分析需要必须建立复杂的数据模型,一般的分析需求都可以借助分析工具加以实现和验证模型的优劣。由于数据中心分析模型在展现形式和共享上的要求,因此有时还需要开发一定的程序来满足这些要求,开发就会带来较大的成本,分析模型的评估就是要降低无效的投资。所以借助一定的分析工具在较低的成本上先建立一些可被评估的分析模型是下一阶段数据中心建设中较为关键的环节,这也将成为数据中心建立模型的一个有效的方法。
5. 促进数据分析主题的使用
数据中心主题的使用是推进数据应用和信息资源开发的基础,使用面和使用深度都是很重要的考察指标。为此从信息化部门来看,要建立数据中心的导航系统,其目的是借助企业的门户(信息管理系统)介绍数据中心已经积累的数据和已经建立的应用等等,这样可以增加企业各级员工对数据中心的了解,并提出应用需求或者直接使用一些已经被积累的数据和已经投入使用的应用;同时业务部门与信息化部门必须一起按照数据质量的要求,对数据规范的执行情况进行跟踪检查和实施考核,以保证数据中心数据的准确性和及时性。以上两个方面是促进数据应用工作需要解决的比较重要的问题,当然最为关键的还是员工使用数据中心的主动性和积极性,这需要进一步的营造学习型的企业文化。
五. 结束语
数据应用工作和信息资源的开发工作是企业在“十一五”期间必须大力推进、在企业以后更长的发展过程中必须持续改进的一项系统工程,而数据中心的建设将是这项工程的重要载体,因此为企业数据中心的建设建立一套科学、合理的项目管理和实施的方法,是保证该项工作取得成效的一个非常重要的基础条件。当然信息资源开发利用工作还有较多的相关因素,如企业文化的因素、数据采集的因素等等,这些因素都将对信息资源开发利用工作产生
影响,也是我们在推进工作的过程中需要予以重视和考虑的。
参考文献
[1] W.H.Inmon著·数据仓库,北京;机械工业出版社,2000.5 第66页 [2] W.H.Inmon著·数据仓库,北京;机械工业出版社,2000.5 第67页