Apache-Hive-2.1.0-二进制发行版详解

Apache Hive 是一个基于 Hadoop 的数据仓库工具，支持通过 SQL-like 查询语言（HQL）对大规模数据集进行分析和管理。它使非 Hadoop 专家也能轻松操作存储在 HDFS（Hadoop Distributed File System）中的数据。

Hive Metastore：
存储和管理元数据（表结构、分区信息、列属性等）。
元数据通常保存在关系型数据库中（如 MySQL）。
Hive CLI (命令行接口)：
通过命令行输入 HQL 语句来执行查询和管理数据仓库。
Hive Server：
提供远程访问接口，支持通过 Beeline 和 JDBC/ODBC 进行连接。
HQL (Hive Query Language)：
类似 SQL，但为大数据处理进行了优化，支持 DDL、DML 和 DCL 操作。
MapReduce 集成：
HQL 查询会转化为 MapReduce 任务进行数据处理。虽然 Hive 支持其他计算引擎（如 Tez 和 Spark），但 MapReduce 是 Hive 2.1.0 的默认执行引擎。
分区与桶化：
分区：按列值将大表划分为逻辑子集，提高查询性能。
桶化：进一步在每个分区内分组，优化 JOIN 操作。
数据存储格式支持：
支持多种格式，如 TextFile、RCFile、Parquet 和 ORC，每种格式具有不同的压缩和列存储优势。

该文件包含 Apache Hive 2.1.0 运行所需的所有二进制组件，用户可直接解压后使用。