BI、DW与DM

BI是企业对商业数据的搜集、管理和分析的系统过程,目的是使企业的各级决策者获得知识或洞察力,帮助他们做出对企业更有利的决策。BI是数据仓库、OLAP(联机分析处理)和DM(数据挖掘)等相关技术走向商业应用后形成的一种应用技术。
DW(数据仓库)是一个面向主题的、集成的、非易失的、反映历史变化的数据集合,用于支持管理决策。

数据仓库的特征如下:

  1. 数据仓库是面向主体的。传统的操作型系统是围绕公司的应用进行组织的。如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。
  2. 数据仓库是集成的。数据仓库实现数据由面向应用的操作型环境向面向分析的数据仓库的集成。由于各个应用系统存在编码、命名习惯、实际属性、属性度量等方面不一致,当数据进入数据仓库时,要采用某种方法来消除这些不一致性。
  3. 数据仓库时非易失的。数据仓库的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。
  4. 数据仓库随时间的变化性。

数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。

  1. 数据总结:继承于数据分析中的统计分析。数据总结的目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外,还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。
  2. 聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间的差别变得明显,而同一个群之间的数据尽量相似,这种方法通常用于客户细分。由于在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制订一些针对不同客户群体的营销方案。
  3. 关联分析:是寻找数据库中值得相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个时间中出现的不同项的关联性;序列模式与此类似,寻找的是时间之间在时间上的相关性,如对股票涨跌的分析等。
  4. 分类:目的是构造一个分类函数或分类模型(也称分类器),该模型能把数据集进行分类。
  5. 回归:通过已知值的变量来预测其他变量的值。
  6. 时间序列:时间序列是用变量过去的值来预测未来的值。

标签: 系统集成项目管理工程师教程笔记, 数据挖掘是什么意思, BI是什么意思, 数据仓库是什么意思

添加新评论