取样是一种普遍有效的近似技术,利用取样技术处理近似聚集查询在决策支持系统和数据挖掘中广泛采用。正确有效地产生近似查询结果并最小化误差是处理近似查询的关键目标。提出了Outlier-DivideConquer算法,结合误差确界,只需单次扫描数据集,特别适用于高方差分布的聚集属性,克服了随机均匀取样的局限性,显著降低近似查询误差,且比同类算法执行效率更高。实验验证显示,该算法与传统均匀取样算法相比具有显著优势。
Outlier-DivideConquer 近似聚集查询中的离群分治取样算法(2011年)
相关推荐
分治算法
美赛可能会用到分治算法,代码如下。
算法与数据结构
2
2024-04-30
分治算法概览
分治算法是一种高效解决大型问题的算法,其原理是将问题划分为较小的子问题,逐个解决,最后合并子问题的解决方案。它广泛应用于排序、搜索、合并等场景,可降低算法复杂度,提高效率。
算法与数据结构
3
2024-05-13
xgboost代码回归matlab-kdd17-outlier-detectionkdd17-离群值检测
xgboost代码回归matlab在度量学习背景下进行上下文空间离群值检测。此代码由宾夕法尼亚州立大学的Guanguan Zheng编写,并应用于kdd 2017论文:“通过度量学习进行上下文空间离群值检测”,收录于第23届ACM SIGKDD国际会议论文集第2161-2170页。该代码的度量学习部分(位于MLKR1.0文件夹中)由Kilian Q.Weinberger编写,用于内核回归。我们对其进行了修改以增强输入输出功能,并计划更新以兼容Windows和Mac OS系统。建议在anaconda3环境下安装Python 3,并配备Matlab及相关Python包(如xgboost)。
Matlab
2
2024-07-28
分治算法的设计与性能分析
分治算法是一种将复杂问题分解成多个小问题并逐个解决的方法。它的设计思想包括将原始问题划分为规模较小的子问题,递归地求解每个子问题,并将它们的解合并以解决原问题。分治算法的应用范例包括二分检索、二分归并排序和Hanoi塔的递归算法。每个例子展示了如何有效地使用分治策略解决问题,并分析了它们的时间复杂度。
算法与数据结构
2
2024-07-18
起泡排序:分治策略下的排序算法
起泡排序通过逐次交换相邻较小元素,将最大元素移动至末尾。经过 n-1 趟遍历,所有元素将按照从小到大的顺序排列,其中最小元素位于数组首位。
算法与数据结构
3
2024-05-15
基于LOF算法的离群点检测MATLAB程序
本程序利用训练数据集,计算测试数据集中每个样本的局部离群因子 (LOF) 。
注意事项:
假设数据已经过适当的标准化处理,并将数据中的分类特征转换为连续值。
相关数据预处理函数可在“dataset”文件夹中找到。
算法与数据结构
4
2024-05-25
近似算法实验3:高级算法设计
学习目标:
掌握近似算法设计思想和方法
了解集合覆盖问题近似算法的设计思路
熟练使用编程语言实现近似算法
实验测试近似算法性能,分析优缺点
实验内容:
集合覆盖问题Python求解
算法与数据结构
4
2024-04-30
基于Z曲线的新型离群点挖掘算法研究
提出一种基于密度的快速离群点查找算法——Z曲线离群点挖掘算法(ZOD)。该算法通过Z曲线将空间分割成等大小的网格,并沿曲线方向对网格进行排序,将网格中的点映射到一维空间,有效克服了传统网格算法的高维问题。此外,引入局部偏离指数来衡量离群点的偏离程度,具有高精度和可度量的优点。理论分析显示,ZOD算法在性能上优于传统基于密度的算法;实验结果表明,该算法在处理高维数据时具有显著的效率和处理效果提升。
数据挖掘
0
2024-09-01
基于部分支持度树的关联规则增量更新新算法(2011年)
关联规则挖掘是数据挖掘技术的一种简便实用方法,广泛应用于各个领域。提出了一种基于部分支持度树的关联规则增量更新算法,专为数据库新增数据时最小支持度不变的情况设计。该算法充分利用已挖掘的关联规则和保留的部分支持度树,显著提升了性能。新算法仅需一次数据库部分扫描即可完成更新,进一步提高了效率。实验结果验证了该算法在关联规则更新问题上的有效性和挖掘效率的提升。
数据挖掘
1
2024-07-23