在News Break的数据平台上,Hudi和Presto被整合,构建了现代化的数据架构,实现了快速摄入和统一模式下的查询。 News Break的数据架构从传统的CDH集群迁移到AWS,目标是减少数据处理延迟,使其在99.5th百分位下少于15分钟。Hudi在这个过程中起到了关键作用,支持多源写入和先连接后存储的策略,确保数据一致性。使用Hudi 0.1版本,相比之前的0.9和0.7版本,性能显著提升,默认的gzip压缩提高了30%的性能。DeltaStreamer工具减少了编码工作量,实现了Merge-on-Read模式。Hudi引入了protobuf schema的支持,允许自定义payload类和transformer类进行过滤和基本指标计算。使用FileBasedSchemaProvider和ProtoClassBasedSchemaProvider,可以更好地处理各种数据源。Hudi与HMS集成,并与Presto和Spark一起使用,提供了一体化的数据处理能力。Presto选择了版本0.275,基于Twilio的最佳实践,优化了Hudi支持。为了优化跨分区查询性能,Hudi 0.11.0作为编译时依赖项引入。自定义开发包括跳过全局动态分配,增加Alluxio本地缓存支持,以及开发Presto-event-stream插件,将所有查询事件以schema形式发送到Kafka。Presto在两个集群、1600个核心上运行,每月处理55万查询,读取6PB数据。
Hudi-Presto在News Break数据平台的尝试-关立胜
相关推荐
Linux平台上Informix 12.10相关文档下载
包括管理员指南、备份与恢复指南、客户端安装指南、DB-Access用户指南、GLS用户指南、高性能加载器用户指南、Informix快速入门指南、UNIX、Linux和Mac OS X安装指南(12.10.xC1-12.10.xC4)、Windows安装指南(12.10.xC1-12.10.xC4)、客户端SDK快速入门指南等内容。
Informix
0
2024-08-24
尝试使用Matlab进行开发——第二次尝试
本次尝试利用Matlab进行开发,特别是在实施Dijkstra算法时的应用。我们探索了算法的优化和实施过程,以期在解决实际问题中取得更好的效果。
Matlab
1
2024-07-26
使用Spark处理Hudi数据湖
在Apache Hudi数据湖中使用Spark进行数据摄取、处理和查询。
spark
3
2024-04-30
Python实现SQLite数据库功能的尝试
这个项目从最基础的层面实现SQLite关系数据库的核心功能。项目涵盖了诸如创建、删除、选择和更新数据等SQL语句。例如,可以执行类似于'CREATE', 'DELETE', 'SELECT'和'UPDATE'等操作。此外,还展示了如何使用参数化查询和自定义排序功能。
SQLite
2
2024-07-13
Hudi Spark Bundle 解析
hudi-spark3.2-bundle_2.12-0.12.2.jar 是一个与 Apache Spark 3.2 兼容的 Hudi bundle 包。其包含了 Hudi 核心功能以及 Spark 集成所需的依赖项。此 bundle 简化了 Hudi 在 Spark 环境中的使用,开发者可轻松将其添加到项目中以利用 Hudi 的数据湖功能。
Hadoop
3
2024-04-29
深入解析Hudi:构建高效数据湖的关键
Hudi:赋能数据湖的利器
Hudi (Hadoop Upserts Deletes and Incrementals) 为构建高效可靠的数据湖提供了强大的支持。它能够管理大型数据集,并确保数据的一致性和完整性。
核心特性:
Upserts: Hudi 支持高效的更新和插入操作,确保数据始终保持最新状态。
Deletes: 可以精确删除数据,满足合规性和数据清理的需求。
Incrementals: 支持增量数据处理,仅处理自上次操作以来发生变化的数据,显著提升数据处理效率。
数据版本控制: 提供数据版本管理功能,允许用户回溯到历史版本的数据。
多种存储格式: 支持多种数据存储格式,如Parquet、Avro等,满足不同场景的需求。
Hudi 应用场景:
实时数据湖: 构建实时数据湖,为实时分析和机器学习提供支持。
数据仓库增强: 增强数据仓库的实时性,实现近实时的数据分析。
增量ETL: 高效处理增量数据,降低ETL过程的资源消耗。
拥抱Hudi,构建高效可靠的数据湖,释放数据价值!
Hadoop
8
2024-04-30
Presto 0.196 资源包
本资源包包含 Presto 0.196 服务器、命令行客户端以及可视化客户端,为您提供完整的 Presto 使用体验。
Hive
2
2024-05-12
深度解析Presto技术
《Presto技术内幕》这本书详细探讨了Presto作为高效、分布式的SQL查询引擎的核心技术及其广泛应用。Presto由Facebook开源,用于在诸如Hadoop HDFS、Amazon S3、Cassandra等多种数据源上执行快速的交互式查询。主要技术包括分布式架构,无共享设计,通过协调节点和工作者节点实现任务分配;查询优化器利用成本模型生成高效执行计划;支持插件化数据源和内存计算,以及多种连接器和完整的SQL支持。安全性和性能调优也是其关注重点。详尽的监控与日志功能确保了系统的稳定运行。
Hbase
0
2024-08-22
MATLAB 幅度调制:初次尝试
利用 MATLAB 实现幅度调制,并结合 Simulink 进行仿真。欢迎查看评论区,期待您的反馈!
Matlab
3
2024-05-12