挖掘可擦除项目集,一个新兴的数据挖掘任务,从2009年开始吸引了广泛关注。介绍了NC_set,这一新数据表示形式,用于跟踪和优化挖掘可擦除项目集的信息。基于NC_set,提出了MERIT算法,通过紧凑的数据结构自动修剪无关数据,以线性时间复杂度完成增益计算转换,并在某些情况下直接找到可擦除项目集而无需生成候选项目集。实验表明,MERIT比META算法快两个数量级。
使用NC_sets优化挖掘可擦除项目集
相关推荐
深入解析马尔可夫链:状态集与转移集的奥秘
马尔可夫链模型的核心要素包括两个关键组成部分:(a)发射符号的状态集,以及(b)状态之间的转移集。图15-9直观地展示了一个马尔可夫链模型的结构和运作机制。
数据挖掘
8
2024-04-30
软件项目管理文档集
项目编码规范编写指南
项目产品数据统计分析报告编写指南
配置管理计划编写指南
硬件、软件和图书资料编号方案 v1.1
统计分析
4
2024-05-15
业务问题可映射数据挖掘技术
业务问题可以映射到数据挖掘技术中。
数据挖掘
2
2024-05-16
学术论文研究优化FP-树的最大项目集挖掘算法.pdf
挖掘最大频繁项目集是数据挖掘中的核心问题之一。目前,FP-growth算法是最有效的频繁模式挖掘算法之一,但在挖掘最大项目集时存在时空效率不高的问题。为此,结合改进的FP-树,提出了一种高效的算法。改进的FP-树采用单向结构,并优化了存储空间利用,每个节点只保留指向父节点的指针。此外,引入项目序列集及其基本操作,避免了生成大量候选项目集或条件FP-树,能够快速挖掘出所有的最大频繁项目集。实例分析表明,该算法具备实际应用价值。
数据挖掘
2
2024-07-15
Turbot使用Python进行数据挖掘的项目
Turbot的安装方法是通过运行python setup.py install命令完成。导入Turbot库后,可以创建Turbot对象并使用它来回答问题,例如“Bjarne Stroustrup的出生日期是1950年12月30日”,或确认“天空是否是蓝色”。
数据挖掘
0
2024-08-15
使用Python项目存储库进行Kickstarter数据挖掘
建议在设置应用程序时使用virtualenv。要安装所需的模块,只需键入: python setup.py install。在某些计算机上,此命令一开始可能会失败,因为numpy没有使用setuptools正确安装。要解决此问题,请直接使用pip安装numpy,如pip install numpy==1.9.1,然后执行setup.py install。课程信息从xml获取,这是运行应用程序的要求。要将课程导入MongoDB,请运行以下命令: python course_import.py。配置应用程序可以通过添加app.cfg文件或环境变量来完成。
数据挖掘
0
2024-08-24
数据挖掘项目
问题摘要:学生无法根据他们在课程中的表现以及与课程的在线学习环境(moodle)的互动来预测他们的最终成绩。目的:研究数据挖掘技术,对Moodle上的数据实施最适用的模型,对学生的成绩进行预测。任务包括:研究不同的数据挖掘技术,审查在类似领域实施的模型,查看在所述问题的领域中实现的其他模型。确定最适用于对Moodle格式的数据进行预测的技术,在给定的上下文中设计独特的数据预测模型,比较和评估所选模型与现有数据模型的准确性,展示研究结果,可视化结果。
数据挖掘
3
2024-07-12
基于Hive的项目实战用户数据集优化
基于Hive的项目实战用户数据集格式为:上传者字符串, 视频数整型, 好友数整型。
Hive
0
2024-10-15
数据挖掘项目简介
商户在特定日期如“黑色星期五”和“双十一”等促销活动中可能会吸引一些一次性购物的新买家,商家需要识别谁可以转化为重复购买者以减轻促销对未来销售的影响。数据文件说明如下:
字段名称 | 定义---|---|---user_id | 用户唯一 ID年龄范围 | 用户年龄范围:50 时为 7 和 8;0 和 NULL(未知)性别 | 用户性别:女性 0,男性 1,NULL(未知)商户编号 | 商家唯一 ID标签 | 取值 {0, 1, -1, NULL},1 表示用户是商家的重复购买者,0 表示相反,-1 表示用户是潜在重复购买者
数据挖掘
5
2024-05-01