关于《海量数据挖掘》的关键知识点

一、书籍背景与目标

海量数据挖掘》由 Anand RajaramanJure LeskovecJeffrey D. Ullman 编著,最早用于斯坦福大学的“Web Mining”课程,专为高级研究生和高年级本科生提供深度数据挖掘知识。内容集中于处理大规模数据集的算法,涵盖分布式计算、数据流、相似性搜索等技术。

二、书籍主要内容

本书从算法导向的视角切入大数据处理,以Web数据和相关应用为案例,详细讨论了以下关键技术:

1. 分布式文件系统与MapReduce

- 分布式文件系统:介绍了如何使用 Hadoop HDFS 等系统来管理大规模数据。

- MapReduce:一种数据并行处理框架,通过将任务分解成 Map 和 Reduce 两阶段高效处理数据。

2. 相似性搜索

- MinHashing:用于估计集合相似度,适合大规模数据集。

- Locality-Sensitive Hashing (LSH):一种近似最近邻搜索技术,在保持精度的同时提升搜索速度。

3. 数据流处理

- 数据流处理技术:适用于实时数据的流处理,包括滑动窗口概念。

- 算法:如 Count-Min Sketch,为数据流设计的高效算法。

4. 搜索引擎技术

- PageRank:Google用于网页重要性评估的核心算法之一。

- 链接垃圾检测:识别和过滤操纵搜索引擎的无效链接。

- Hubs and Authorities:网页权威性与中心性的评估方法。

5. 频繁项集挖掘

- 关联规则:用于发现数据集中频繁的项目组合。

- Market-Basket Analysis:一种重要的商业分析方法,用于分析消费者购买行为。