InFoRM,即图挖掘中的个人公平性的Python实现,针对PageRank、频谱聚类和LINE任务,体现了我们在KDD 2020年论文中的研究成果。我们提供了Python 3(> 3.7)的实现,涵盖了斯克莱恩网络数据的加载和PPI数据集的演示。此外,方法文件夹中提供了三种去偏置方法,包括消除输入图和采矿模型的偏见。
InFoRM 图挖掘中的个人公平性Python实现
相关推荐
纳什解matlab代码-多标准降维:探索公平性
本代码库包含论文“多标准降维及其对公平性的应用”的代码实现。
.py 文件功能:- 预处理数据- 标准 PCA 及公平性实用标准计算- 解决特定目标函数的 SDP 问题- 使用乘法权重更新方法- 其他辅助方法
Jupyter Notebook 功能:- 演示如何将不同 PCA 策略(例如,公平的基于 SDP 的 PCA 与标准 PCA)应用于数据集(信贷和收入数据)。- MW 笔记本使用 MW(乘积权重更新)代替 SDP 求解器来实现公平的基于 SDP 的 PCA。
使用方法:- 打开并运行 Jupyter 笔记本(例如,SDP_credit.ipynb 或 'additional-heuristics' 文件夹中的 heuristics.ipynb)。- 查看数据格式和示例用法,将其应用于您自己的数据集。
代码说明:- 每个方法(MW、基于 SDP 的公平 PCA、std_PCA 等)的详细用法(包括输入和输出)在相应的 .py 文件中均有记录。- “符号”小节提供了变量名和关键字的快速说明。
Matlab
3
2024-05-25
数据挖掘算法及其Python实现
本书详细介绍了数据挖掘中常见的算法及其应用,涵盖了遗传算法、优化问题、搜索排序等内容,所有算法均基于Python实现。
数据挖掘
2
2024-07-18
Apriori算法在Python中的实现
Apriori算法,作为一种经典的数据挖掘技术,用于发现频繁项集和关联规则。基于算法的使用了先验知识或假设这一特性,它被命名为Apriori。本教程将深入讲解Apriori算法的基本概念,并提供一份Python代码实现。
数据挖掘
2
2024-05-15
Python中LDA模型的实现方法
在Python中,实现LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)模型是一项常见的文本挖掘任务,用于主题建模。LDA是生成模型,能从文档集合中提取出隐藏的主题信息。利用Python的自然语言处理库,如nltk和gensim,进行数据预处理、词汇表创建、文档-词项矩阵构建及LDA模型训练。项目python-LDA-master提供完整代码示例,包括参数设置和主题可视化,帮助理解LDA模型的实现细节和优化方法。
算法与数据结构
2
2024-07-17
数据挖掘中Hadoop的重要性
Hadoop作为一个开源的分布式计算平台,在数据处理和分析领域发挥着关键作用。它能够有效地管理和处理大规模数据集,尤其是在云环境中。Hadoop的核心组件包括HDFS和MapReduce编程模型,为海量数据的存储和处理提供强大支持。近年来,Hadoop在国外的研究取得了显著进展,不仅在理论探讨上取得突破,如任务调度和性能优化,还广泛应用于数据挖掘等实际场景。
数据挖掘
0
2024-08-13
Python编程实现序列模式挖掘算法
利用Python编程语言实现数据挖掘中的序列模式挖掘算法。
数据挖掘
0
2024-09-13
基于数据挖掘的煤炭企业协同办公平台的研究
在煤炭行业信息化进程中,针对煤炭企业办公自动化系统的研究现状,提出了构建协同办公平台的方案。详细介绍了该平台的总体架构,阐述了各层面及保障体系,以及数据挖掘技术在平台应用的重要性。经过潞安集团和同煤集团的实证应用,显示协同办公平台显著提升了煤炭企业的工作效率和管理水平,具备广泛推广应用的潜力。
数据挖掘
0
2024-08-22
Python相似性度量的完整实现及结果图解
Python编程语言中,相似性度量是评估多个数据对象相似程度的方法,广泛应用于数据挖掘、机器学习和自然语言处理等领域。本资源包含完整Python代码实现和相关结果图片,帮助深入理解和应用这些度量方法。讨论的基本相似性度量方法包括欧几里得距离、曼哈顿距离、切比雪夫距离、余弦相似度和Jaccard相似系数。Levenshtein距离和Jaro-Winkler距离适用于字符串相似度,TF-IDF和Word2Vec常用于文本相似度模型。压缩包可能包含各方法的Python代码实现和结果图片,帮助理解这些度量特性及在实际项目中的应用。
数据挖掘
0
2024-08-09
数据挖掘中机器学习的重要性
数据挖掘中,机器学习扮演着关键角色。
数据挖掘
2
2024-07-17