Hadoop权威指南(第四版)

掌握数据的力量。借助这本综合指南的第四版,您将学习如何使用Apache Hadoop构建和维护可靠、可扩展的分布式系统。

本书适合希望分析任何规模数据集的程序员,以及希望设置和运行Hadoop集群的管理员。

作者Tom White独家使用Hadoop 2,介绍了关于YARN的新章节以及一些与Hadoop相关的项目,例如Parquet、Flume、Crunch和Spark。您将了解Hadoop的最新变化,并探索关于Hadoop在医疗保健系统和基因组数据处理中的作用的新案例研究。

学习内容:

  • MapReduce、HDFS和YARN等基本组件
  • 深入了解MapReduce,包括使用它开发应用程序的步骤
  • 在YARN上设置和维护运行HDFS和MapReduce的Hadoop集群
  • 学习两种数据格式:用于数据序列化的Avro和用于嵌套数据的Parquet
  • 使用数据提取工具