此存储库包含了使用Java编写的多种数据挖掘算法和工具程序。通用容器可表示多维数字数据点,支持不同特征的数据类型。记录了具有空值的属性位置,用于替换缺失特征或识别完整案例。数据以集合形式表示,支持子集化处理。通用类实现了多种距离计算工具,包括欧几里得距离、曼哈顿距离、余弦相似度和Jaccard系数。CSV文件阅读器支持读取文本和CSV文件。