Apache Hive 概述
Apache Hive 是一个基于 Hadoop 的数据仓库工具,支持通过 SQL-like 查询语言(HQL)对大规模数据集进行分析和管理。它使非 Hadoop 专家也能轻松操作存储在 HDFS(Hadoop Distributed File System)中的数据。
关键组件和特性
- Hive Metastore:
- 存储和管理元数据(表结构、分区信息、列属性等)。
- 元数据通常保存在关系型数据库中(如 MySQL)。
- Hive CLI (命令行接口):
- 通过命令行输入 HQL 语句来执行查询和管理数据仓库。
- Hive Server:
- 提供远程访问接口,支持通过 Beeline 和 JDBC/ODBC 进行连接。
- HQL (Hive Query Language):
- 类似 SQL,但为大数据处理进行了优化,支持 DDL、DML 和 DCL 操作。
- MapReduce 集成:
- HQL 查询会转化为 MapReduce 任务进行数据处理。虽然 Hive 支持其他计算引擎(如 Tez 和 Spark),但 MapReduce 是 Hive 2.1.0 的默认执行引擎。
- 分区与桶化:
- 分区:按列值将大表划分为逻辑子集,提高查询性能。
- 桶化:进一步在每个分区内分组,优化 JOIN 操作。
- 数据存储格式支持:
- 支持多种格式,如 TextFile、RCFile、Parquet 和 ORC,每种格式具有不同的压缩和列存储优势。
安装文件:apache-hive-2.1.0-bin.tar.gz
该文件包含 Apache Hive 2.1.0 运行所需的所有二进制组件,用户可直接解压后使用。