挖掘搜索历史中的频繁模式《大数据挖掘技术》@复旦课程项目

搜索历史频繁模式挖掘是《大数据挖掘技术》@复旦课程项目的关键内容，从搜狗实验室用户的查询日志数据（2008年）中发现具有高支持度的关键词频繁二项集。在技术实施方面，我搭建了一个由五台服务器组成的微型Hadoop集群，并用Python实现了Parallel FP-Growth算法的三个MapReduce过程。为了快速开始，请确保已安装Python以及jieba中文分词库。若未安装jieba，请在命令行中执行：pip install jieba # for python pip3 install jieba # for python3，或直接运行无jieba版本的find_pair_nojieba.py（功能上会缺少关键词近似匹配）。只需运行.src/demo/find_pair.py而无需修改任何文件，即可输入您想匹配的查询词。