数据仓库的三大技术层面

数据仓库的功能和逻辑结构决定了其三大技术层面:数据抽取、存储和管理以及数据分析和展现。

1. 数据抽取层

  • 负责设计和实现ETL过程。
  • 完成数据仓库的数据加载和更新。
  • 数据源包括行内业务系统和行外相关数据。

2. 存储和管理层

  • 采用ODS-DW二层结构。
  • 存储的数据具有以下特性:
    • 面向主题
    • 集成
    • 相对稳定(不可删改)
    • 随时间不断变化
  • 支持多维分析的查询模式。
  • 存储内容包括业务数据和元数据。
  • 保存的数据类型包括结构化数据和非结构化数据。

3. 数据分析和展现层

  • 提供OLAP设计、分析和展现手段。
  • 包括联机分析和数据挖掘两大技术。

ETL过程

ETL包括数据抽取、转换和装载三个过程,技术上主要涉及增量、转换、调度和监控等方面的处理。

数据挖掘

数据挖掘是从数据仓库中发现并提取隐藏信息的全新技术,利用人工智能、统计分析等多种技术和各类挖掘工具及数据算法,分析企业历史数据,进行深层次挖掘,实现规则性发现及预测功能,侧重于对事务中蕴涵的未知规律进行发现。

案例:广东发展银行

  • 行为计分机制: 跟踪和监控每个信用卡持卡用户的行为、消费模式和还款数据,并根据相应的数学模型,智能化地调整用户的信贷额,同时亦可从而找出高增值客户,向他们推广新产品或服务。
  • 申请计分机制: 透过先进的数据挖掘技术对大量信用卡客户数据进行分析,寻找客户信用风险的特征和规律,建立相应的数学模型,为新的信用卡申请者或已有的客户进行信用评分。

常用BI厂商和产品

  • ETL: Informatica, SQL Server Analysis Server, datastage
  • DW: IBM DB2, Oracle, Sybase IQ, NCR Teradata
  • OLAP: Cognos, Business Objects, MicroStrategy, Hyperion, IBM
  • Data Mining: IBM, SAS, SPSS