关于《海量数据挖掘》的关键知识点
一、书籍背景与目标
《海量数据挖掘》由 Anand Rajaraman、Jure Leskovec 和 Jeffrey D. Ullman 编著,最早用于斯坦福大学的“Web Mining”课程,专为高级研究生和高年级本科生提供深度数据挖掘知识。内容集中于处理大规模数据集的算法,涵盖分布式计算、数据流、相似性搜索等技术。
二、书籍主要内容
本书从算法导向的视角切入大数据处理,以Web数据和相关应用为案例,详细讨论了以下关键技术:
1. 分布式文件系统与MapReduce
- 分布式文件系统:介绍了如何使用 Hadoop HDFS 等系统来管理大规模数据。
- MapReduce:一种数据并行处理框架,通过将任务分解成 Map 和 Reduce 两阶段高效处理数据。
2. 相似性搜索
- MinHashing:用于估计集合相似度,适合大规模数据集。
- Locality-Sensitive Hashing (LSH):一种近似最近邻搜索技术,在保持精度的同时提升搜索速度。
3. 数据流处理
- 数据流处理技术:适用于实时数据的流处理,包括滑动窗口概念。
- 算法:如 Count-Min Sketch,为数据流设计的高效算法。
4. 搜索引擎技术
- PageRank:Google用于网页重要性评估的核心算法之一。
- 链接垃圾检测:识别和过滤操纵搜索引擎的无效链接。
- Hubs and Authorities:网页权威性与中心性的评估方法。
5. 频繁项集挖掘
- 关联规则:用于发现数据集中频繁的项目组合。
- Market-Basket Analysis:一种重要的商业分析方法,用于分析消费者购买行为。