Hive - 代码谷

尚硅谷hive课程文档

尚硅谷hive课程文档提供了全面的学习资源，包括hive的基本概念、数据处理技巧和高级应用等内容，帮助学员掌握大数据技术。文档内容结构清晰，易于理解，适合初学者和有一定基础的学习者。

Hive 7 2024-07-12

hive-metastore-2.3.6.jar

在使用hive java api时，需要导入hive所需的jar包，有两种方式可以实现：1.使用maven依赖直接修改配置文件，配置如下：（不推荐，会下载很多不必要的包，耗时大约1小时左右）2.挑选必要的jar包，编辑成自己的lib配置到工程中（推荐）这是其中的一个

Hive 13 2024-07-12

HIve UDF说明书

Hive UDF说明书是官方指定的文档，包含Hive_LanguageManual_UDF详细内容。此文档涵盖了Hive UDF的使用方法及相关功能，帮助用户更好地理解和应用Hive UDF。

Hive 13 2024-07-12

Hive实现原理

Hive分布式实现原理。Hive是大数据平台上构建数据仓储的核心工具。

Hive 8 2024-07-12

Hive开启权限后无法创建数据库的解决方法

使用root用户登录Hive命令行界面，执行create database test;报错：Authorization failed:No privilege 'Create' found for outputs { }。解决办法：1. 确认当前用户具备创建数据库的权限。2. 使用SHOW GRANT命令查看详细权限信息。3. 根据显示的权限信息，赋予root用户创建数据库的权限。

Hive 9 2024-07-12

hive-hbase-handler-1.2.1.jar

此jar包适用于hive-1.2.1和hbase-1.3.1版本。它能够连接hbase和hive，省去了重新编译jar包的麻烦。

Hive 9 2024-07-12

Hive学习记录，亲测有效

Hive学习记录，实测有效，绝对适用。

Hive 9 2024-07-12

Hive调优总结文档-Hive Tuning PPT

Hive是Apache Hadoop生态系统中的数据仓库工具，允许用户使用SQL方言（HQL）对存储在HDFS上的大规模数据进行查询和分析。在大数据处理中，Hive性能优化是关键环节，以提高查询速度和系统资源利用率。以下是对Hive调优总结文档-Hive Tuning PPT中可能涉及的多个知识点的详细阐述：元数据优化：分区策略：根据业务需求设计分区字段，减少不必要的数据扫描，例如按日期、地区等分区。桶表：通过哈希函数将数据分布到预定义的桶中，提高JOIN操作的效率，尤其是等值JOIN。物理存储优化：列式存储：Hive支持ORC、Parquet等列式存储格式，列式存储能有效

Hive 14 2024-07-12

数据仓库基础知识

数据仓库是一种特殊设计的数据库系统，主要用于支持企业决策分析和业务智能。数据仓库面向主题，按业务领域需求组织数据，如销售、人力资源或财务，每个主题区域包含与该主题相关的所有详细数据，提供全面视角分析业务情况。数据仓库是集成的，整合了企业内部多个分散的事务处理数据库的数据，通过ETL过程解决数据一致性和重复性问题，确保数据质量和准确性。数据仓库中的数据通常是只读的，侧重于OLAP，用户通过查询工具访问数据获取历史分析结果。由于数据不被频繁更新，管理系统相对简单，不需处理并发控制。数据仓库的数据随时间变化，定期接收新数据并删除过期数据，许多数据按时间分段，便于趋势分析和历史比较。数据仓库发展历程包

Hive 6 2024-07-12

apache-hive-0.13.1-bin.tar.gz

Hive是基于Hadoop的数据仓库工具，可将结构化数据文件映射为数据库表，提供简单的SQL查询功能，能将SQL语句转换为MapReduce任务运行。其优点是学习成本低，通过类SQL语句快速实现简单的MapReduce统计，无需开发专门的MapReduce应用，非常适合数据仓库的统计分析。

Hive 6 2024-07-12