该存储库提供了用于在R中计算聚类之间的调整后的互信息(AMI)、归一化的互信息(NMI)和调整后的兰德指数(ARI)的代码。NMI和ARI是广泛应用且成熟的分区一致性度量标准,而AMI提供了一种归一化互信息度量,通过计算观察到的群集大小分布的预期互信息(EMI)来校正随机预期的分区重叠基线值。这种度量标准有助于更精确地评估聚类效果,特别是在具有不均匀分布或不同规模的聚类中。
该存储库的代码可高效并行计算这些指标,特别适用于生物学应用,例如在将微生物宏基因组序列数据聚类成OTU时评估分区一致性。提供的数据集包含大约1M序列,通过完整链接或平均链接聚类方法,将其聚集成OTU。两个分区结果以每行一行的格式保存,分别为“otu映射”和“seq映射”。这些代码适用于任何类型的聚类数据,序列聚类到OTU仅是其中一个应用示例。