《海量数据挖掘》由数据库和网络技术领域的权威人士 Jure Leskovec、Anand Rajaraman 和 Jeffrey David Ullman 执笔,适合学生和从业者阅读。

网络和电子商务的普及产生了大量可供数据挖掘信息的海量数据集。本书侧重于解决数据挖掘关键问题的实用算法,这些算法即使应用于最大的数据集也能取得成功。

本书首先讨论了 map-reduce 框架,这是一种自动并行化算法的重要工具。作者解释了局部敏感哈希和流处理算法的技巧,用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节涵盖了 PageRank 的理念和组织网络的相关技巧、查找频繁项集和聚类的问题。

第二版新增和扩展了社交方面的内容。