Apache Tez 是一个构建于 YARN 之上的开源计算框架,支持 DAG 作业。Tez 源于 MapReduce 框架,但其核心思想是将 Map 和 Reduce 操作进一步拆分为更细粒度的元操作,例如 Input、Processor、Sort、Merge 和 Output。这些元操作可以自由组合,形成新的操作,并通过控制程序组装成复杂的 DAG 作业。 Tez 的主要特点包括:

- 作为 Apache 二级开源项目,其源代码已正式发布。

- 运行于 YARN 之上,可有效利用集群资源。

- 适用于 DAG(有向图)应用,可替代 Hive/Pig 等传统数据处理工具,类似于 Impala、Dremel 和 Drill。