HPFP-Miner是一种创新的并行频繁项集挖掘算法,针对数据挖掘中的重要基础问题进行了深入研究。该算法由陈晓云和何艳珊提出,通过优化数据扫描过程,显著提升了效率。
HPFP-Miner 新型并行频繁项集挖掘算法研究论文
相关推荐
并行频繁项集挖掘算法的优化研究
传统的挖掘频繁项集的并行算法存在节点间负载不均衡、同步开销过大、通信量大等问题。针对这些挑战,提出了一种名为多次传送重新分配数据的并行算法(MRPD)。在MRPD算法中,第l步将数据库重新划分成多个组,并根据各节点的需求多次传送这些组。各节点在异步地计算完整组后,可以得到所有频繁项集。理论分析和实验结果均表明,MRPD算法在优化并行频繁项集挖掘中具有显著效果。
数据挖掘
2
2024-07-16
数据挖掘论文研究基于FP-Tree的新型频繁项集挖掘算法
在数据挖掘领域,发现频繁项集是关键问题之一。提出了一种名为FP-SPMA的新型算法,基于FP-Tree结构,通过共享前缀和前瞻剪枝,显著提升了算法效率。相较于传统方法,该算法无需递归构造条件模式树,有效压缩了事务数据库。
数据挖掘
2
2024-07-17
基于有向项集图的最大频繁项集挖掘算法
本算法基于有向项集图存储事务数据库中频繁项集信息,采用三叉链表结构组织有向项集图,并在此基础上提出最大频繁项集挖掘算法。该算法一次扫描事务数据库,有效减少I/O开销,适用于稀疏和稠密数据库的最大频繁项集挖掘。
数据挖掘
2
2024-05-31
Apriori算法:频繁项集挖掘与关联规则学习
Apriori算法是一种用于数据挖掘的经典算法,其核心目标是发现数据集中频繁出现的项集以及学习部分关联规则。
算法特点:
迭代式方法: Apriori算法采用逐层迭代的方式,从单个频繁项开始,逐步生成更大的频繁项集。
支持度阈值: 通过设定最小支持度阈值,筛选出满足条件的频繁项集,有效控制结果数量。
关联规则生成: 基于频繁项集,Apriori算法可以推导出“一对多”或“多对一”形式的部分关联规则。
局限性:
无法处理多对多关联规则: Apriori算法目前版本仅支持生成一对多或多对一形式的关联规则,对于更复杂的多对多关联规则尚待改进。
数据挖掘
1
2024-05-24
MFWSR数据流上的频繁闭项集挖掘算法
MFWSR:数据流上的频繁闭项集挖掘算法,陶克,王意洁,数据流上频繁项集挖掘是数据挖掘有效手段之一,是相联规则挖掘的重要基础。频繁闭项集挖掘的结果更简洁而又能保留所有频繁项集的结果。
数据挖掘
0
2024-08-08
垂直数据格式挖掘频繁项集
垂直数据格式挖掘频繁项集可避免生成候选频繁项集,进而节省CPU开销。
数据挖掘
4
2024-05-25
最大频繁项集快速更新算法FUMFS
FUMFS算法优化了最大频繁项集的维护,利用已有BitMatrix和最大频繁项集,有效地更新挖掘结果。
数据挖掘
4
2024-05-12
FP增长算法:一种高效的频繁项集挖掘技术
FP增长算法是一种用于发现频繁项集的数据挖掘技术,它摒弃了传统的“产生-测试”范式,而是利用一种名为FP树的紧凑数据结构来组织数据,并直接从FP树中提取频繁项集。
数据挖掘
2
2024-05-16
基于滑动时间衰减窗口的网络流频繁项集挖掘算法
网络流数据频繁项集挖掘是进行网络流量分析的基础。STFWFI 算法采用基于字典顺序前缀树 LOP-Tree 的方法进行频繁项集挖掘,并引入了更符合网络流特性的滑动时间衰减窗口模型,从而有效降低了时间和空间复杂度。此外,该算法还提出了一种基于统计分布的节点权值计算方法 SDNW,替代了传统的统计方法,提高了网络流节点估值的精确度。实验结果表明,STFWFI 算法在网络流频繁项集挖掘中表现出良好的性能。
数据挖掘
4
2024-05-20