收集在大型数据库中的数据变成了“数据坟墓“_新闻_

需要是发明之母，近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量的数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。

快速增长的海量数据收集、存放在大型和大量数据库中，没有强有力的工具，理解它们已经远远超出了人的能力。结果收集在大型数据库中的数据变成了“数据坟墓“。数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务决策、知识库、科学和医学研究做出了巨大贡献。数据和信息之间的鸿沟要求系统的开发数据挖掘工具，将数据坟墓转换成知识“金块“。简单来说就是，大量的数据产生，存储和收集。但是无法得到充分有效的利用，而被无奈得废弃。这样就相当于，坐拥一座金山，但是没有工具开采的尴尬局面。在这种背景环境下，数据挖掘应运而生。

许多人把数据挖掘视为KDD，也就是平时所说的数据库中的知识发现。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。由以下步骤组成：

1.数据清理（消除噪音和不一致的数据）

2.数据集成（多种数据源可以组合在一起）

3.数据选择（从数据库中提取和分析任务相关的数据）

4.数据变换（数据变换或统一成适合挖掘的形式：如，通过汇总或聚集操作）

5.数据挖掘（基本步骤，使用智能方法提取数据模式）

6.模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式）

7.知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

典型的数据挖掘系统具有以下主要成分

1.数据库、数据仓库、或其它信息库

2.数据库或数据仓库服务器：根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据

3.知识库：这是领域知识，用于指导搜索，或评估结果模式的兴趣度。这种知识可能包括概念分层，用于将属性或属性值组成不同的抽象层。用户确信方面的知识也包括在内。可以使用这种知识，根据非期望性评估模式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据

4.数据挖掘引擎：这是数据挖掘系统的基本部分，由一组功能模块组成，用于特征、关联、分类、聚类分析、演变和偏差分析。

5.模式评估模块：通常，该部分使用兴趣度度量，并与数据模块交互，以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块，也可以与挖掘模块集成在一起，这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘，建议尽可能地将模式评估推进到挖掘过程之中，以便将搜索限制在有兴趣的模式上

目前的现状实际是这样的，尽管市场上很多产品宣扬为“数据挖掘系统”，实际上无法对大量数据继续进行分析，组多是机器学习、统计数据分析工具或试验系统模型。一个系统只能够进行数据或信息提取，包括在大型数据库中找出聚集值或回答演绎查询，应当归类为数据库系统，或信息提取系统。不能定义为数据挖掘。实际上也就是说，目前市面上大多数系统，只能够对已有数据进行学习训练和统计，无法进行分析和预测。甚至很多舆情监控的功能都是徒有虚表的。