Apache Hive 概述

Apache Hive 是一个基于 Hadoop 的数据仓库工具,支持通过 SQL-like 查询语言(HQL)对大规模数据集进行分析和管理。它使非 Hadoop 专家也能轻松操作存储在 HDFS(Hadoop Distributed File System)中的数据。

关键组件和特性

  1. Hive Metastore
  2. 存储和管理元数据(表结构、分区信息、列属性等)。
  3. 元数据通常保存在关系型数据库中(如 MySQL)。
  4. Hive CLI (命令行接口)
  5. 通过命令行输入 HQL 语句来执行查询和管理数据仓库。
  6. Hive Server
  7. 提供远程访问接口,支持通过 Beeline 和 JDBC/ODBC 进行连接。
  8. HQL (Hive Query Language)
  9. 类似 SQL,但为大数据处理进行了优化,支持 DDL、DML 和 DCL 操作。
  10. MapReduce 集成
  11. HQL 查询会转化为 MapReduce 任务进行数据处理。虽然 Hive 支持其他计算引擎(如 Tez 和 Spark),但 MapReduce 是 Hive 2.1.0 的默认执行引擎。
  12. 分区与桶化
  13. 分区:按列值将大表划分为逻辑子集,提高查询性能。
  14. 桶化:进一步在每个分区内分组,优化 JOIN 操作。
  15. 数据存储格式支持
  16. 支持多种格式,如 TextFileRCFileParquetORC,每种格式具有不同的压缩和列存储优势。

安装文件:apache-hive-2.1.0-bin.tar.gz

该文件包含 Apache Hive 2.1.0 运行所需的所有二进制组件,用户可直接解压后使用。