针对现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,提出了一种快速有效的基于层次聚类的全局孤立点检测方法。该方法利用层次聚类结果,通过聚类树和距离矩阵可视化评估数据的孤立度,并确定孤立点数量。从聚类树顶层开始,无监督地去除孤立点。仿真实验验证了本方法能快速有效地识别全局孤立点,具备良好的用户友好性,适用于不同形状的数据集,特别适用于大型高维数据集的孤立点检测。
一种新型全局孤立点识别方法-基于层次聚类的创新研究.pdf
相关推荐
研究论文-一种自然聚类发现的新算法.pdf
当前的聚类方法如K-means和DBSCAN采用全局参数,难以准确发现数据的自然聚类结构。新提出的分级聚类算法CluFNC通过调整网格大小、噪声阈值和神经节点数量,能够在数据空间中精确识别内部聚类特征。该算法首先根据参数划分数据空间网格,然后利用高斯影响函数计算每个单元的场强,接着运用SOM算法对网格位置和场强进行聚类,最后通过Chameleon算法对SOM聚类得到的神经网络节点权值进行最终的数据空间聚类映射。理论和实验结果表明,该算法能有效发现数据中的自然聚类特性。
数据挖掘
2
2024-07-31
论文研究-基于相容关系的新型聚类算法
聚类分析是数据挖掘中的重要研究领域,传统的聚类算法通常划分为硬聚类和模糊聚类两类。提出一种基于对象集上的相容关系的新型聚类算法,通过极大相容簇对数据对象集进行分类。该算法使得同一对象可以属于不同的簇,每个簇具有独特的成员对象,从而实现了既不同于传统硬聚类也不同于模糊聚类的聚类效果。实验结果进一步验证了该算法在聚类分析中的合理性。
数据挖掘
1
2024-08-04
探索图论算法: 一种基于 Matlab 的方法
探索图论算法: 一种基于 Matlab 的方法
本资源深入研究图论算法领域,并提供基于 Matlab 的实践方法。内容涵盖经典算法(如最短路径、最小生成树)以及网络流和匹配等高级主题。通过实际示例和 Matlab 代码实现,帮助读者掌握将理论应用于实际问题。
Matlab
9
2024-05-23
基于全局特征和核力场的时间序列聚类研究
聚类分析在时间序列数据挖掘中扮演着至关重要的角色,是众多领域应用的关键,例如医学图像分析、气象预测和金融市场分析等。然而,如何有效地对长时间序列进行聚类分析仍然是一个具有挑战性的课题。
本研究提出了一种基于全局特征和核力场的长时间序列聚类方法。该方法首先提取时间序列的全局特征,然后利用核力场对这些特征进行聚类。实验结果表明,该方法能够有效地对长时间序列进行聚类,并且具有较高的准确性和效率。
数据挖掘
4
2024-05-24
使用层次和基于密度的聚类方法的数据分析比较研究
数据挖掘涉及使用不同技术来提取有用模式。聚类是其中一种技术,通过提取数据中的聚类以发现信息。层次聚类和基于密度的聚类是两种常用方法。层次聚类利用树状图展示聚类结果,而DBSCAN则是一种基于密度的算法,能够发现任意形状的簇。详细探讨了这些算法的高效实现。
数据挖掘
0
2024-08-08
Moth Swarm Algorithm (MSA)一种新型元启发算法
Moth Swarm Algorithm (MSA):灵感来源于飞蛾对月光的导向。该算法引入了两种创新优化算子:(1)基于种群多样性的交叉点动态选择策略,利用差异向量Lévy-mutation提升侦察阶段的探索能力;(2)集成即时记忆的联想学习机制,模拟飞蛾的短期记忆,解决经典粒子群算法的初始速度问题。此代码演示了MSA在23个常用基准测试中的应用。详细信息参见Mohamed等人(2017)的研究:“使用蛾群算法的最优潮流”。
Matlab
1
2024-08-01
Sinaplot:一种用于数据可视化的创新方法
Sinaplot 是一种数据可视化方法,它结合了带状图和小提琴图的优点,以简洁易懂的方式呈现数据。它通过沿 x 轴抖动点并限制归一化密度来创建类似于小提琴图的轮廓,同时保持带状图的简单性,适用于各种样本大小的数据集。 Sinaplot 能有效传达数据点数量、密度分布、异常值和散布等关键信息。
Matlab
3
2024-05-28
一种创新的基于N-list的频繁项集挖掘算法
频繁项集的挖掘是数据挖掘中的核心问题之一,在多个关键数据挖掘任务中至关重要。引入了一种名为N-list的新型垂直数据表示形式,灵感源自于类似FP-tree的编码前缀树(PPC-tree)。N-list存储了频繁项集的关键信息,通过该数据结构,我们提出了一种高效的挖掘算法PrePost,能够有效地发现所有的频繁项集。PrePost算法的高效性源于几个关键因素:N-list的紧凑性,基于交集的项目支持计数转换,以及利用N-list的单路径属性直接发现频繁项集。我们在多种真实和合成数据集上对PrePost算法进行了实验评估,并与四种先进算法进行了比较,结果显示PrePost算法在大多数情况下表现最优。尽管在处理稀疏数据集时会消耗更多内存,但其速度仍然超群。
数据挖掘
2
2024-07-27
统计聚类RBF神经网络的孤立点检测研究
该研究提出了一种SCRBF算法,将统计聚类方法融入RBF神经网络,通过初始化和简化隐单元来提高泛化能力并减少过拟合。实验表明,该算法在孤立点检测方面有效。
数据挖掘
3
2024-05-16