Hulu公司大数据平台组软件工程师张虔熙在2017年HBase亚洲会议上分享了HBase在Hulu的实际应用案例,展示了HBase在大数据平台上的重要作用。以下是具体内容:

Hulu的HBase使用情况概览:

- HBase版本:1.2.0

- Hadoop节点数量:超过1000个

- HBase节点数量:超过200个

- HBase表数量:超过200个

- HBase存储数据总量:超过700TB

- 集群规模:4

Hulu应用HBase的场景:

- 用户画像系统(Audience Platform):通过用户行为分析,构建标签化的用户模型,帮助市场营销决策和个性化推荐。

- 日志存储系统(Log Storage):用于存储和查询日志信息。

- 订单信息存储系统(Online Bill Storage):存储用户订单的结构化信息。

- OpenTSDB:用于时序数据的存储和查询。

用户画像系统(Audience Platform)详解:

- 数据类型:包括用户基本属性、用户行为、第三方数据和用户标签。

- 数据特征:数据稀疏(10^6qualifier),包含多版本。

- 技术栈:涉及Spark Streaming、Kafka、HDFS、Bulk Load、HBase等。

HBase集群性能优化:

- Region大小调整:通过大Region分割与小Region合并改善MapReduce和Spark任务的执行时间。

- 自动平衡输入格式:配置hbase.mapreduce.input.autobalance,以自动平衡Region Size。

技术难题与解决方案:

- 修复了HBASE-15357号Bug,优化Region划分与中间键问题,提升了系统稳定性。

总结:HBase在Hulu中的应用非常广泛,从用户画像构建到日志存储,HBase为Hulu的多个业务模块提供了强大的数据支撑。