Apache DataFu (跟踪:@apachedatafu) 是一个用于在 Hadoop 中处理大规模数据的库集合。该项目的灵感来自于对数据挖掘和统计的稳定、经过良好测试的库的需求。它由两个库组成:

- Apache Pig 的 DataFu - 用户定义函数 (UDF) 的集合,用于 Pig Latin 脚本。

- Apache Crunch 的 DataFu - Java 库的集合,可与 Crunch 一起使用。