Hulu公司大数据平台组软件工程师张虔熙在2017年HBase亚洲会议上分享了HBase在Hulu的实际应用案例,展示了HBase在大数据平台上的重要作用。以下是具体内容:
Hulu的HBase使用情况概览:
- HBase版本:1.2.0
- Hadoop节点数量:超过1000个
- HBase节点数量:超过200个
- HBase表数量:超过200个
- HBase存储数据总量:超过700TB
- 集群规模:4
Hulu应用HBase的场景:
- 用户画像系统(Audience Platform):通过用户行为分析,构建标签化的用户模型,帮助市场营销决策和个性化推荐。
- 日志存储系统(Log Storage):用于存储和查询日志信息。
- 订单信息存储系统(Online Bill Storage):存储用户订单的结构化信息。
- OpenTSDB:用于时序数据的存储和查询。
用户画像系统(Audience Platform)详解:
- 数据类型:包括用户基本属性、用户行为、第三方数据和用户标签。
- 数据特征:数据稀疏(10^6qualifier),包含多版本。
- 技术栈:涉及Spark Streaming、Kafka、HDFS、Bulk Load、HBase等。
HBase集群性能优化:
- Region大小调整:通过大Region分割与小Region合并改善MapReduce和Spark任务的执行时间。
- 自动平衡输入格式:配置hbase.mapreduce.input.autobalance,以自动平衡Region Size。
技术难题与解决方案:
- 修复了HBASE-15357号Bug,优化Region划分与中间键问题,提升了系统稳定性。
总结:HBase在Hulu中的应用非常广泛,从用户画像构建到日志存储,HBase为Hulu的多个业务模块提供了强大的数据支撑。