针对现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,提出了一种快速有效的基于层次聚类的全局孤立点检测方法。该方法利用层次聚类结果,通过聚类树和距离矩阵可视化评估数据的孤立度,并确定孤立点数量。从聚类树顶层开始,无监督地去除孤立点。仿真实验验证了本方法能快速有效地识别全局孤立点,具备良好的用户友好性,适用于不同形状的数据集,特别适用于大型高维数据集的孤立点检测。
一种新型全局孤立点识别方法-基于层次聚类的创新研究.pdf
相关推荐
研究论文-一种自然聚类发现的新算法.pdf
当前的聚类方法如K-means和DBSCAN采用全局参数,难以准确发现数据的自然聚类结构。新提出的分级聚类算法CluFNC通过调整网格大小、噪声阈值和神经节点数量,能够在数据空间中精确识别内部聚类特征。该算法首先根据参数划分数据空间网格,然后利用高斯影响函数计算每个单元的场强,接着运用SOM算法对网格位置和场强进行聚类,最后通过Chameleon算法对SOM聚类得到的神经网络节点权值进行最终的数据空间聚类映射。理论和实验结果表明,该算法能有效发现数据中的自然聚类特性。
数据挖掘
2
2024-07-31
Jaya一种创新的优化算法
介绍了一种简单但强大的优化算法,适用于解决有约束和无约束的优化问题。所有基于进化和群体智能的算法都是概率算法,需要共同的控制参数,如种群规模、世代数、精英规模等。不同的算法除了共同的控制参数外,还需要特定的算法参数。例如,GA使用变异概率、交叉概率和选择算子;PSO使用惯性权重、社会和认知参数;ABC使用围观蜂数、雇佣蜂数、侦察蜂数和限制数;HS算法使用和声记忆考虑率、音调调整率和即兴次数。其他算法如ES、EP、DE、SFL、ACO、FF、CSO、AIA、GSA、BBO、FPA、ALO、IWO等也需要对各自的特定参数进行优化。算法特定参数的适当调整对算法性能非常关键,而不当的调整可能导致计算量增加或局部最优解。为解决这一问题,Rao等人(2011)引入了基于教学的优化(TLBO)算法,该算法无需特定于算法的参数,只需要通用的控制参数,如种群大小。
Matlab
0
2024-09-25
论文研究-基于相容关系的新型聚类算法
聚类分析是数据挖掘中的重要研究领域,传统的聚类算法通常划分为硬聚类和模糊聚类两类。提出一种基于对象集上的相容关系的新型聚类算法,通过极大相容簇对数据对象集进行分类。该算法使得同一对象可以属于不同的簇,每个簇具有独特的成员对象,从而实现了既不同于传统硬聚类也不同于模糊聚类的聚类效果。实验结果进一步验证了该算法在聚类分析中的合理性。
数据挖掘
1
2024-08-04
探索图论算法: 一种基于 Matlab 的方法
探索图论算法: 一种基于 Matlab 的方法
本资源深入研究图论算法领域,并提供基于 Matlab 的实践方法。内容涵盖经典算法(如最短路径、最小生成树)以及网络流和匹配等高级主题。通过实际示例和 Matlab 代码实现,帮助读者掌握将理论应用于实际问题。
Matlab
9
2024-05-23
使用层次和基于密度的聚类方法的数据分析比较研究
数据挖掘涉及使用不同技术来提取有用模式。聚类是其中一种技术,通过提取数据中的聚类以发现信息。层次聚类和基于密度的聚类是两种常用方法。层次聚类利用树状图展示聚类结果,而DBSCAN则是一种基于密度的算法,能够发现任意形状的簇。详细探讨了这些算法的高效实现。
数据挖掘
0
2024-08-08
基于全局特征和核力场的时间序列聚类研究
聚类分析在时间序列数据挖掘中扮演着至关重要的角色,是众多领域应用的关键,例如医学图像分析、气象预测和金融市场分析等。然而,如何有效地对长时间序列进行聚类分析仍然是一个具有挑战性的课题。
本研究提出了一种基于全局特征和核力场的长时间序列聚类方法。该方法首先提取时间序列的全局特征,然后利用核力场对这些特征进行聚类。实验结果表明,该方法能够有效地对长时间序列进行聚类,并且具有较高的准确性和效率。
数据挖掘
4
2024-05-24
Moth Swarm Algorithm (MSA)一种新型元启发算法
Moth Swarm Algorithm (MSA):灵感来源于飞蛾对月光的导向。该算法引入了两种创新优化算子:(1)基于种群多样性的交叉点动态选择策略,利用差异向量Lévy-mutation提升侦察阶段的探索能力;(2)集成即时记忆的联想学习机制,模拟飞蛾的短期记忆,解决经典粒子群算法的初始速度问题。此代码演示了MSA在23个常用基准测试中的应用。详细信息参见Mohamed等人(2017)的研究:“使用蛾群算法的最优潮流”。
Matlab
1
2024-08-01
Sinaplot:一种用于数据可视化的创新方法
Sinaplot 是一种数据可视化方法,它结合了带状图和小提琴图的优点,以简洁易懂的方式呈现数据。它通过沿 x 轴抖动点并限制归一化密度来创建类似于小提琴图的轮廓,同时保持带状图的简单性,适用于各种样本大小的数据集。 Sinaplot 能有效传达数据点数量、密度分布、异常值和散布等关键信息。
Matlab
3
2024-05-28
小波分形压缩一种创新的微阵列图像压缩方法
我由衷感谢教授Alireza Nasiri Avanaki在这项工作中的大力支持。在此过程中,我们提出了一种有效的微阵列图像压缩方法,利用了混合波-MATLAB开发。
Matlab
0
2024-09-23