Apache Griffin是一个分布式数据系统中的开源数据质量解决方案。它在Hadoop、Spark、Storm等系统中提供统一的流程,用于定义和检测数据集的质量,并及时报告问题。Apache Griffin填补了大数据质量领域的空白,如同空气质量、水和食品安全对人类生活的重要性一样,数据质量在数据科学领域至关重要。在大数据时代,企业的决策调整和商机发现越来越依赖于数据分析和数据挖掘,数据质量的保证是一切数据分析和挖掘的基础。