数据挖掘技术在数据仓库建设中的应用_新闻_

数据仓库和数据挖掘技术在DSS中的应用研究

夏庆玲

[摘要]数据仓库和数据挖掘是数据库技术两个研究方向，数据仓库为数据挖掘提供高质量的数据，同时数据挖掘技术支持数据仓库的建设。文章重点论述了如何将数据挖掘技术应用于数据仓库的建设中，从而提高数据仓库建设的质量和效率。

[关键词]数据挖掘；数据仓库；关联规则；聚类；模式

中图分类号：TM241 文献标识码：A 文章编号：1009-914X（2017）12-0284-01

1 引言

随着信息技术的广泛应用，企业时刻都在产生和利用大量的数据，在享受数据带来信息的同时，也面临着如何处理这些日益庞大的数据的问题。为了更好地适应新技术和提高企业的竞争力，各大企业都在对自己的信息管理系统进行改造，以适应新的要求。数据仓库和数据挖掘作为数据库技术新的研究方向，在解决企业面临的问题方面发挥了较好的作用。数据仓库是面向主题的、综合的、不同时间的、稳定的数据的集合，用于支持经营管理中的决策制定过程；数据挖掘是从数据集中识别出有效的、新颖的、潜在的、有用的以及最终可理解的模式的高级处理过程。如何将这两种技术较好地结合起来，为企业提供信息支持成为人们关注的问题。通常数据仓库技术和数据挖掘技术的结合方式有三种：将数据挖掘技术和数据仓库的OLAP技术集成为数据仓库的前端工具；数据仓库为数据挖掘提供高效的数据库技术和高质量的数据；数据挖掘技术支持数据仓库的建设。前两种方式已有较广泛的研究，但第三种方式还很少有人涉足。

本文将对第三种方式进行深入的探讨，提出在数据仓库建设中，可以使用的数据挖掘技术并予以展望。以下按照数据仓库建设的各个阶段，介绍如何使用数据挖掘技术支持数据仓库的建设。

2 数据挖掘技术在数据仓库建设中的应用

2.1 数据分析

在数据仓库的建设中，当确定了其所需的信息和包含信息的数据源后，就要从结构、语义、数据质量等各个方面的数据源进行分析。建设数据仓库用到的数据源常常是各种各样的，而且由于各种原因，数据源的文档资料不是很完整，它们的字段信息、语义结构等并没有记录在案，这使得数据仓库的建设尤为困难。数据仓库的建设者通过数据挖掘技术，发现隐含在数据库中的数据之间的相关数据结构和字段的语义信息。

（1）字段的语义

通常，字段的确切语义是不可能从字段的名字和字段的数据类型推断出来的，但其相关信息可以通过数据挖掘，依据数据之间的函数相关性得到。

关联规则是发现大量数据中项集之间的关联或相关联系的。在表2中有如下的关联规则（CGXH=34）→（CN=1）：90%修理的CGXH=34（电视机为34英寸）的电视，也具有属性CN=1。同时由背景知识：34英寸的电视机绝大多数都在城市销售，农村销售的很少，因此我们判断CN字段用于表示城市还是农村。

数据挖掘的决策树和规则归纳，以及统计分析的多元和贝叶斯网络都可以对字段所表示的语义进行较好的解释，总之使用数据挖掘技术得到字段间的相关性模型并结合背景知识，就可以较好地推断出字段的语义。

（2）编码规则

许多字段值都是以编码的形式存在，产品的很多信息都隐含在这个编码中。找到该字段的编码方案，对理解其语义往往是至关重要的。

通过字段间的相关性，可以推断出字段值的编码信息。例如在（1）中：通过关联规则，有如下知识：90%修理的CGXH=34（电视机为34英寸）的电视，其CN属性值为1，从而可以判断1代表了城市。如果字段的编码方案是随时间变化的，则数据挖掘技术能够标示编码方案是何时变化的以及受影响的编码位。假设在CPID的编码中表示显像管的位置已知，而且表示某种型号的显像管的编码从某一时间起不再使用，那么数据挖掘技术能标志该种显像管不再使用的时间。假设该型号的显像管的编码为“07”，一种可能是显像管编码顺序为07，03，07，07，02，02，07，03，03，03，01，它们与“07”的相对频率为1.00，0.40，0.60，0.73，0.64，0.50，0.56，0.46，0.40，0.38。利用数据挖掘技术，就可以找到从什么时间起“07”的相对频率是单调下降的，这里，时间是从第七个编码开始的。另外，神经网络也具有标志编码方案是何时变化的以及受影响的编码位的能力。

（3）完整性约束

完整性约束是指字段的值域以及不同字段之间的约束关系。它对于理解数据源和检查不正确的数据均特别有效。

数据挖掘技术和统计方法都可以依据数据库中的数据推导出完整性约束。例如：通过可视化的方法和依赖模型找到字段值的分布特性。在上面的例子中，数据挖掘技术能发现属性（显像管型号）、GL（功率）和ZL（重量）之间的关系；还能发现字段的取值范围（包括了字段大部分的取值）；例子中有99%ZL属于[20，45]规则，该范围可以被认为是字段ZL的值域，在此范围之外的取值被认为是错误的。

2.2 数据源结构上的集成

对数据源内容和结构的集成，主要是为了解决数据源之间语义的冲突，最终将多个数据源集成到一个全局数据源，集成不同的数据源时会遇到如下几种冲突：

（1）描述冲突。如果同一个实体在不同的系统中以不同的方案进行描述，那么就会产生命名、阈值和量纲等方面的描述冲突。

（2）结构冲突。如果同一个实体在不同的系统中使用不同的结构表示，不同的系统之间会产生结构冲突。

（3）数据冲突。数据冲突是由错误的数据引起的。引起冲突的原因有：不正确的输入和输出、不同的量纲、不同的精确度和不同的表示方法等。

数据挖掘在一定程度上可以解决这些冲突。如果字段间相关性模型是已知的，则数据挖掘技术能直接计算出函数；如果不知道字段间的函数相关性模型，则必须先找到该模型，然后再计算函数的系数。表1和表2中的JG字段，一个以人民币表示，另一个以美元表示，两者是线性关系，可以计算出两者转换的比例因子。数据挖掘技术不仅可以发现准确数据间的关系，而且可以發现准确数据和抽象数据间的关系。例如通过关联规则（JG=1180）→（JG-Group=cheap），在准确数据和抽象数据之间建立对应关系。

2.3 多维数据建模

在数据仓库的视图模型中，使用多维模型是使用OLAP进行数据分析的前提条件，数据挖掘技术用于多维数据建模的以下几个方面：

（1）确认正交维数

在进行问题分析中并不是数据源的所有属性都具有相同的重要性，有些属性对目前所分析的问题没有很大的影响，有些属性也不是完全独立的，它可以通过其他属性推导出来，因而在建立数据立方时需要进行属性的筛选，选择对应用最必需的属性作为维，建立数据立方。数据挖掘可以帮助实现依据属性在所应用领域中的重要性和用户要分析的问题，对属性进行分级。另外通过数据挖掘技术中的相关性分析方法，发现非正交的属性，进而在构建数据立方中利用这些信息。

（2）标志结果立方中的稀疏和稠密区域

由于在数据稀疏的区域进行OLAP分析是很难分析到有价值的信息，因而在多维数据建模中，应该避开数据稀疏区域。使用数据挖掘技术中的聚类分析来确定数据密集区域的中心，从而可以有效地进行多维数据建模。

（3）处理取值为连续型的属性

多维模型要求维的数据类型是离散型的，因而必须将连续型的属性值映射为离散型的。数据挖掘技术中用来发现在数值属性中有意义的间隔的算法，能将连续型数值映射为离散型。例如：依据电视机的价格将电视机分为：普及型、豪华型和尊贵型。

3 结论

数据挖掘技术可以用于数据仓库的建设，而且通过其引入可以使数据仓库的建设更加高效。在工程实践中，利用数据挖掘技术可以较好地对企业旧的信息系统进行分析，获取系统说明文档中没有记载而又是数据仓库建设必需的信息，为数据仓库的建设提供较好的支持。但同时我们也必须认识到，对数据挖掘技术支持数据仓库建设的研究还不是很广泛，相应的数据挖掘算法还不够丰富，各方面的研究还有待于更进一步的深入。