数据仓库与知识发现概览

Table of Contents

What are data? What is knowledge?
#

我们可以轻松地获取大量数据，而这些数据对我们来说毫无意义。那么我们真正需要的是什么？knowledge 是从 data 中提取出的有意义的信息。knowledge 就是对你有用的东西。

数据仓储和在线分析处理
从大型数据库中提取有趣的知识（规则、规律、模式、约束）

What Is Data Mining?
#

数据挖掘（ Knowledge discovery(mining) in databases ，KDD）：从大型数据库中提取有趣（非平凡、隐含、先前未知且潜在有用）的信息或模式。

Alternative names and their “inside stories”: Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.

Why Data Mining?
#

潜在应用

数据库分析和决策支持：

市场分析与管理：目标营销，客户关系管理，市场篮子分析，交叉销售，市场细分
风险分析与管理：预测，客户保留，改进承保，质量控制，竞争分析
诈骗检测与管理

其他应用

文本挖掘（新闻组，电子邮件，文档）和Web分析
智能查询回答

数据挖掘：知识发现过程的核心

Steps of a KDD Process

学习应用领域：相关的先前知识和应用的目标
创建目标数据集：数据选择
数据清理和预处理：（可能占60%的工作量！）
数据减少和转换：找到有用的特征，降低维度/变量，不变表示
选择数据挖掘功能：摘要，分类，回归，关联，聚类
选择挖掘算法
数据挖掘：寻找感兴趣的模式
模式评估和知识呈现：可视化，转换，去除冗余模式等
利用发现的知识

Data Mining: On What Kind of Data?

关系数据库
数据仓库
事务性数据库
高级数据库和信息库
- 面向对象和面向对象关系数据库
- 空间数据库
- 时间序列数据和临时数据
- 文本数据库和多媒体数据库
- 异构和遗留数据库
- 万维网

Data Mining Functionalities
#

概念描述：表征和区分
- 推广、总结和对比数据特征，例如，干燥区域与湿润区域
关联（相关性和因果关系）
- 多维与单维关联
- age(X, “20..29”) ^ income(X, “20..29K”) à buys(X, “PC”) [support = 2%, confidence = 60%]
- contains(T, “computer”) à contains(x, “software”) [1%, 75%]
分类和预测
- 查找描述和区分未来预测的类别或概念的模型（函数）。例如，根据气候对国家进行分类，或根据油耗对汽车进行分类
- 展示：决策树、分类规则、神经网络
- 预测：预测一些未知或缺失的数值
聚类分析
- 类别标签未知：将数据分组形成新类别，例如，聚类房屋以找到分布模式
- 基于原则的聚类：最大化类内相似性，最小化类间相似性
离群值分析
- 离群值：不符合数据一般行为的数据对象
- 它可以被视为噪声或异常，但在欺诈检测、罕见事件分析中非常有用
趋势和演变分析
- 趋势和偏差：回归分析
- 时序模式挖掘，周期性分析
- 基于相似性的分析
其他面向模式或统计分析

Are All the “Discovered” Patterns Interesting?

数据挖掘系统/查询可能生成数千个模式，其中并非所有都有趣。建议的方法：以人为中心，基于查询，重点挖掘
Interestingness measures: 模式易于被人类理解、在新数据或测试数据上具有一定程度的准确性、潜在有用、新颖或验证用户希望确认的某些假设时，模式是有趣的
客观与主观的有趣性度量:
- 客观：基于模式的统计和结构，例如，支持度、置信度等
- 主观：基于用户对数据的信仰，例如，出乎意料性、新颖性、可操作性等。

Can We Find All and Only Interesting Patterns?

找到所有有趣的模式：完整性。数据挖掘系统是否能够找到所有有趣的模式？
仅寻找有趣的模式：优化。数据挖掘系统是否能够找到仅有趣的模式？
Approaches
- 首先生成所有模式，然后过滤掉不有趣的模式
- 仅生成有趣的模式——挖掘查询优化

Data Mining: Classification Schemes

一般功能
- 描述性数据挖掘
- 预测性数据挖掘
不同视图，不同分类
- 要挖掘的数据库种类
- 要发现的知识种类
- 使用的技术种类

数据挖掘分类的多维视图

要挖掘的数据库
- 关系型、事务型、面向对象、面向对象关系、主动、空间、时序、文本、多媒体、异构、遗留、万维网等。
要挖掘的知识
- 表征、区分、关联、分类、聚类、趋势、偏差、离群值分析等。
- 多个/集成功能和多层次挖掘
使用的技术
- 面向数据库、数据仓库（OLAP）、机器学习、统计学、可视化、神经网络等。
适应的应用
- 零售、电信、银行、欺诈分析、DNA挖掘、股票市场分析、Web挖掘、Web日志分析等。

OLAP挖掘：数据挖掘和数据仓库的集成

数据挖掘系统、DBMS、数据仓库系统的耦合
- 无耦合，松耦合，半紧耦合，紧耦合
在线分析挖掘数据
- 挖掘和OLAP技术的集成
交互挖掘多层次知识
- 通过钻取/滚动、切片/切块等在不同抽象层次上挖掘知识的必要性
多个挖掘功能的集成
- 表征分类、首先聚类，然后关联

OLAM架构

Major Issues in Data Mining
#

挖掘方法和用户交互
- 挖掘数据库中不同类型的知识
- 在多个抽象层次上交互挖掘知识
- 合并背景知识
- 数据挖掘查询语言和临时数据挖掘
- 表达和可视化数据挖掘结果
- 处理噪声和不完整数据
- 模式评估：有趣性问题
性能和可伸缩性
- 数据挖掘算法的效率和可伸缩性
- 并行、分布和增量挖掘方法
与数据类型多样性相关的问题
- 处理关系和复杂类型的数据
- 从异构数据库和全球信息系统（WWW）挖掘信息
与应用和社会影响相关的问题
- 应用发现的知识
  - 领域特定的数据挖掘工具
  - 智能查询回答
  - 过程控制和决策制定
- 将发现的知识与现有知识整合：知识融合问题
- 保护数据安全、完整性和隐私

What are data? What is knowledge? #

What Is Data Mining? #

Why Data Mining? #

Data Mining Functionalities #

Major Issues in Data Mining #

What are data? What is knowledge?
#

What Is Data Mining?
#

Why Data Mining?
#

Data Mining Functionalities
#

Major Issues in Data Mining
#