Adjusted_Mutual_Information_Parallel_Computation_in_R_for_Clustering_Evaluation

该存储库提供了用于在R中计算聚类之间的调整后的互信息（AMI）、归一化的互信息（NMI）和调整后的兰德指数（ARI）的代码。NMI和ARI是广泛应用且成熟的分区一致性度量标准，而AMI提供了一种归一化互信息度量，通过计算观察到的群集大小分布的预期互信息（EMI）来校正随机预期的分区重叠基线值。这种度量标准有助于更精确地评估聚类效果，特别是在具有不均匀分布或不同规模的聚类中。

该存储库的代码可高效并行计算这些指标，特别适用于生物学应用，例如在将微生物宏基因组序列数据聚类成OTU时评估分区一致性。提供的数据集包含大约1M序列，通过完整链接或平均链接聚类方法，将其聚集成OTU。两个分区结果以每行一行的格式保存，分别为“otu映射”和“seq映射”。这些代码适用于任何类型的聚类数据，序列聚类到OTU仅是其中一个应用示例。