我们主要使用Spark进行离线数仓的开发。由于Atlas官方并未提供对Spark的支持,我们调研了业内一些方案,发现部分第三方插件可以支持Spark的Atlas集成,如spark-atlas-connector-assembly-0.1.0-SNAPSHOT.jar。然而,这些插件并未支持cache语法。当前版本的本包专注于实现Atlas对Spark cache语法的支持,使用方法与spark-atlas-connector-assembly-0.1.0-SNAPSHOT.jar一致。
支持Spark Cache语法的Atlas集成方案spark-atlas-connector
相关推荐
Apache Atlas 2.1.0源码编译与集成指南
Apache Atlas是一个强大的元数据管理系统,在大数据生态系统中发挥重要作用。Apache Atlas 2.1.0源码编译包提供了完整的源代码,允许用户在Linux环境下进行编译和自定义,以满足特定需求。
1. Apache Atlas的核心功能- 元数据管理:提供了全面的元数据存储库,适用于数据实体(如表、列、数据库)、业务术语和数据血缘等信息的管理。- 分类和标签:支持定义和应用数据分类,便于数据的管理和合规性检查。- 数据治理:支持数据访问控制、数据质量和数据安全等数据治理策略。- 数据血缘:可以跟踪数据来源及去向,帮助理解数据的生成过程。- API和RESTful接口:提供灵活的接口,便于系统的集成与扩展。- 查询服务:支持HQL查询,用于查找和理解元数据。
2. Apache Atlas的编译步骤在Linux系统中,编译Apache Atlas 2.1.0源码的步骤包括:1. 环境准备:确保安装了JDK、Maven、Git等基础工具。2. 源码获取:使用Git克隆Apache Atlas的源码。3. 依赖下载:运行mvn clean install -DskipTests命令下载并构建依赖。4. 配置:根据需要修改conf/atlas-application.properties文件。5. 编译:执行mvn package来编译源码并创建可部署的文件。6. 启动服务:使用bin/atlas_start.sh启动服务,bin/atlas_stop.sh停止服务。
3. 集成大数据组件Apache Atlas可以与多种大数据组件无缝集成,如Hadoop、Hive、HBase、Spark和Kafka,帮助实现对整个大数据平台的元数据的统一管理。
Hadoop
0
2024-10-25
Atlas Bin版本
Atlas-0.8.2的二进制版本,不需要编译,已内嵌HBase和Solr。推荐使用4G及以上内存。如需使用内嵌HBase和Solr,请配置环境变量:
export MANAGE_LOCAL_HBASE=trueexport MANAGE_LOCAL_SOLR=true
Hadoop
5
2024-04-30
Kafka与Hive集成方案
了一种Kafka与Hive集成的解决方案,允许用户将Kafka实时数据流摄取到Hive中进行分析。
kafka
0
2024-07-01
Atlas分类更新程序
Atlas 2.2.0 分类更新程序
统计分析
6
2024-05-01
Atlas Hook for Kafka 2.1.0
Atlas Hook for Kafka 2.1.0,已基于 CDH6.3.1 编译。
kafka
3
2024-05-13
Apache Atlas 编译包
提供最新版本的 Apache Atlas 编译好的 tar 包,文件名为 apache-atlas-1.1.0-server.tar.gz。
Hadoop
6
2024-05-13
Apache Atlas 2.2.0 Sqoop Hook
这是一个 Apache Atlas 2.2.0 版本的 Sqoop Hook 文件, 文件格式为 tar.gz。
算法与数据结构
6
2024-05-12
Apache Atlas 2.0.0 资源包
Atlas 2.0.0 版本 Hive Hook 资源包: apache-atlas-2.0.0-hive-hook.tar.gzAtlas 2.0.0 版本 Server 资源包: apache-atlas-2.0.0-server.tar.gz
Hive
2
2024-06-17
Eclipse开发Spark集成环境
手把手搭建Eclipse和Spark的集成环境,解决新手和学生遇到的问题,助你无忧开发Spark项目。
spark
6
2024-05-13