《大数据:互联网大规模数据挖掘与分布式处理》深入探讨了如何高效挖掘和处理互联网产生的大规模数据。本书基于斯坦福大学CS345A课程内容,为高级本科生和初入研究生提供友好的学习资源。重点讲解了处理无法完全装入主内存的大数据集的实践方法。书中覆盖了分布式文件系统、Map-Reduce编程模型、相似度搜索(如MinHashing和局部敏感哈希)、数据流处理及特别算法、搜索引擎技术(如PageRank算法)、频繁项集挖掘(包括A-Priori算法)、以及针对高维数据集的聚类算法。适合希望深入了解和应用数据挖掘与大数据处理技术的专业人士和学生。