数据仓库的三大技术层面
数据仓库的功能和逻辑结构决定了其三大技术层面:数据抽取、存储和管理以及数据分析和展现。
1. 数据抽取层
- 负责设计和实现ETL过程。
- 完成数据仓库的数据加载和更新。
- 数据源包括行内业务系统和行外相关数据。
2. 存储和管理层
- 采用ODS-DW二层结构。
- 存储的数据具有以下特性:
- 面向主题
- 集成
- 相对稳定(不可删改)
- 随时间不断变化
- 支持多维分析的查询模式。
- 存储内容包括业务数据和元数据。
- 保存的数据类型包括结构化数据和非结构化数据。
3. 数据分析和展现层
- 提供OLAP设计、分析和展现手段。
- 包括联机分析和数据挖掘两大技术。
ETL过程
ETL包括数据抽取、转换和装载三个过程,技术上主要涉及增量、转换、调度和监控等方面的处理。
数据挖掘
数据挖掘是从数据仓库中发现并提取隐藏信息的全新技术,利用人工智能、统计分析等多种技术和各类挖掘工具及数据算法,分析企业历史数据,进行深层次挖掘,实现规则性发现及预测功能,侧重于对事务中蕴涵的未知规律进行发现。
案例:广东发展银行
- 行为计分机制: 跟踪和监控每个信用卡持卡用户的行为、消费模式和还款数据,并根据相应的数学模型,智能化地调整用户的信贷额,同时亦可从而找出高增值客户,向他们推广新产品或服务。
- 申请计分机制: 透过先进的数据挖掘技术对大量信用卡客户数据进行分析,寻找客户信用风险的特征和规律,建立相应的数学模型,为新的信用卡申请者或已有的客户进行信用评分。
常用BI厂商和产品
- ETL: Informatica, SQL Server Analysis Server, datastage
- DW: IBM DB2, Oracle, Sybase IQ, NCR Teradata
- OLAP: Cognos, Business Objects, MicroStrategy, Hyperion, IBM
- Data Mining: IBM, SAS, SPSS