Hudi-Presto在News Break数据平台的尝试-关立胜

在News Break的数据平台上，Hudi和Presto被整合，构建了现代化的数据架构，实现了快速摄入和统一模式下的查询。 News Break的数据架构从传统的CDH集群迁移到AWS，目标是减少数据处理延迟，使其在99.5th百分位下少于15分钟。Hudi在这个过程中起到了关键作用，支持多源写入和先连接后存储的策略，确保数据一致性。使用Hudi 0.1版本，相比之前的0.9和0.7版本，性能显著提升，默认的gzip压缩提高了30%的性能。DeltaStreamer工具减少了编码工作量，实现了Merge-on-Read模式。Hudi引入了protobuf schema的支持，允许自定义payload类和transformer类进行过滤和基本指标计算。使用FileBasedSchemaProvider和ProtoClassBasedSchemaProvider，可以更好地处理各种数据源。Hudi与HMS集成，并与Presto和Spark一起使用，提供了一体化的数据处理能力。Presto选择了版本0.275，基于Twilio的最佳实践，优化了Hudi支持。为了优化跨分区查询性能，Hudi 0.11.0作为编译时依赖项引入。自定义开发包括跳过全局动态分配，增加Alluxio本地缓存支持，以及开发Presto-event-stream插件，将所有查询事件以schema形式发送到Kafka。Presto在两个集群、1600个核心上运行，每月处理55万查询，读取6PB数据。