在电商大数据实践中,企业内外部的非结构化和半结构化数据被采集并存储,经过结构化处理后,最终得到用于数据模型的结构化数据。数据按照HDFS文件存储,并建议保留1年。平台包括集市区、沙盘区、增值产品区、主题区和归档区,支持批量作业访问。少量高级业务人员利用MapReduce分布式计算进行大数据分析,包括文本检索、语义分词、图像识别和音频识别。与主题区和贴源区形成Hadoop集群(HDFS),保证无单点故障,实现全天候运行。平台还支持历史数据查询和归档,使用Hive提供查询服务。另外,独立的Hadoop集群(HDFS+Hive)同样具备高可用性,保证数据按照归档规则存储,支持历史数据的有效管理。
大数据分析平台总体架构——数据存储层的设计与实施
相关推荐
大数据分析平台总体架构:数据管控层电商实践方案
数据管控层电商大数据实践方案
金融数据管控体系包含:- 组织架构- 评价与考核- 管控流程- 管控平台
数据标准管理数据质量管理元数据管理工作流管理
组织- 数据与信息标准化委员会- 数据管理人- 数据所有人- 数据生产人- 数据使用人- IT支持团队
考核指标- 责任评价标准- 执行评价政策- 执行评价标准
数据类型- 数据格式- 业务分类
数据质量- 真实性定义- 及时性定义- 完整性定义
元数据- 技术元数据- 流程评价与考核流程- 考核指标- 建立/维护流程标准- 建立/维护流程组织- 建立/维护流程评价与考核- 业务含义一致性定义
数据认责平台- 安全等级- 权限限定
业务元数据管理- 元数据- 数据全生命周期- 数据安全管理- 数据标准- 数据安全- 元数据
数据安全- 审计定义- 保留策略- 数据停用- 数据共享- 数据移动- 数据存储- 数据创建
Hadoop
4
2024-05-20
京东金融大数据分析平台总体架构演示文稿
京东金融大数据分析平台的整体架构演示文稿,可供架构设计参考。
Hadoop
2
2024-07-16
大数据分析平台总体架构-电商大数据实践设计方案(详细版)
大数据分析平台总体架构——数据访问层
即席查询:通过即席查询工具或手工书写SQL语句,完成业务信息的即席查看。
多维分析:从多个维度灵活组合对目标值进行分析,常见功能包括上下钻取、透明钻取、旋转、分页、层钻、跨维钻取等。
主动问题发现:通过事件触发、规则匹配等方式发现企业运营中的问题,通过手机、邮件等方式报警。
决策层管理层业务人员即席查询静态报表多维分析仪表盘挖掘预测
仪表盘:通过仪表盘及其它展现方式对企业关键绩效指标进行展示,为领导层决策提供直观的数据支持。
静态报表:按照预先定义格式,批处理报表,在线查询报表等。
Office集成:将分析应用嵌入到Office界面中,利用Office的方便、易用特性,降低用户使用难度。
问题发现Office集成Web服务
挖掘预测:使用专业的软件工具,通过数理统计等高级统计分析算法,分析结构化、非结构化数据,通过数据模型去挖掘隐藏在数据中的价值。
数据科学家业务系统
Web服务:将分析应用的功能发布为Web服务,注册在企业服务总线上,供其它业务系统或分析应用调用,获取分析结果。
多种展现形式满足各层级用户及应用系统使用需求。
Hadoop
2
2024-07-12
大数据分析仓库Hive存储结构扩展的设计与实施
随着大数据分析的需求增长,Hive存储结构的扩展设计与实施变得至关重要。
Hadoop
7
2024-07-16
大数据时代的数据分析平台架构
随着互联网、移动互联网和物联网的蓬勃发展,我们已经置身于海量数据的时代。据数据调查公司IDC预测,到2011年,全球数据总量将达到1.8万亿GB。在这样的背景下,对海量数据进行精准分析已经成为一项非常紧迫的需求。
算法与数据结构
2
2024-07-17
电商大数据实践大数据分析平台总体产品框架设计与实现方案详解
在大数据分析平台的设计中,结合非结构化和半结构化数据管理分析,采用X86 MPP集群和Hadoop集群等技术,实现了京东业务系统的结构化数据计算和沙盘演练功能。此外,还包括数据交换平台、实时分析平台以及历史归档查询平台等多个关键组件,全面支持大数据区的管理和应用。
Hadoop
2
2024-07-16
电商与金融大数据平台:数据产生层架构解析
电商与金融大数据平台:数据产生层架构解析
结构化数据
电商零售业务:供应商、采购、商品、销售等信息,存储于关系型数据库。
金融集团业务:客户、账户、金融产品、交易等信息,存储于关系型数据库。
非结构化数据
企业内部:用户访问日志、投诉、点评等,存储形式多样化。
企业外部:政策法规、互联网信息、地理位置、社交媒体等,以非结构化数据为主。
源数据获取
增量为主,全量为辅:优先获取增量数据,辅以全量数据加载。
云数据推送平台:通过分析源系统日志识别、获取增量数据。
初始数据加载:对于无法获取增量的系统,采用全量模式进行初始加载。
Hadoop
2
2024-04-30
大数据分析数据导入与存储优化
pandas提供了多种函数,可以高效地将各种表格型数据文件(如CSV、文件)读取为DataFrame对象,其中read_csv和read_table是最常用的。这些函数不仅快速,而且灵活,适用于大规模数据处理和存储优化。
算法与数据结构
2
2024-07-15
大数据分析技术架构方案
大数据分析平台产品技术架构
典型行业应用案例
Hadoop
4
2024-05-12