基于社区划分的改进k度匿名隐私保护方法

改进的决策树属性选择方法—基于MASK的隐私保护数据挖掘

论文研究里讲的是隐私保护下的数据挖掘，讲得还挺接地气的。Rizvi 提出的 MASK 算法有点意思，作者用分治策略对它做了优化。思路挺实用，尤其是在大数据集时，优化后的算法在效率上确实有提升。 MASK 算法的核心逻辑，其实就是在保证用户隐私的前提下，挖出数据之间的潜在联系。你可以把它想象成：一边戴着面具，一边还得看清别人是谁——挺难，但搞好了就是技术壁垒。优化用了分治策略，也就是说把大问题拆成小块，一块块。像前端搞模块化一样，逻辑清晰还省内存。文中对时间复杂度也做了，能看出确实做了不少功课。如果你最近在研究隐私计算、数据挖掘、安全可控的数据，那这篇文章可以拿来参考下思路。尤其是对算法机制

数据挖掘 0 2025-06-16

Geometric Data Perturbation隐私保护方法

几何结构的信息保留，是GDP 方法最大的亮点。在做数据挖掘时，多模型其实都是靠这些多维结构来提效的，比如聚类、分类、回归这些任务。GDP 不是那种一味加噪音的扰动方法，而是更聪明地保留了重要结构，这点蛮值得一试。 GDP 方法的私密性也挺有意思。作者还搞了个多列隐私评估框架，可以评估在不同攻击手法下的防护效果。尤其适合那种数据外包到云端的应用场景，既保护了隐私，又不牺牲模型效果。实验部分也挺给力。对比了随机投影等其他方法，GDP 的模型表现还挺稳，隐私也没掉链子。如果你经常搞隐私计算或者数据共享相关的项目，这篇文章的思路和方法可以参考参考，真不是纸上谈兵。顺带说下，作者陈可可之前在数据扰动

数据挖掘 0 2025-07-02

IPDBSCAN基于数据划分的改进算法

IPDBSCAN 的思路挺聪明的，尤其适合你在密度不太均匀的数据集上做聚类。它不像原始 DBSCAN 那样死板地全局设定ε，而是先按局部划分，取个平均ε来跑全局聚类，这种方法对提升聚类质量还挺有的，是那种“不强烈”密度差异的数据。IPDBSCAN 的核心点在于动态调整ε值，你不用太担心参数怎么调合适了，算法自己就能做个折中判断。对，就是那种你常常聚完之后发现类簇分得零碎、边界模糊的场景，它就挺能救场的。对比 PDBSCAN，它不仅能类簇分裂的问题，还能减少冗余点，让你聚出来的结果更干净。你拿它在交通轨迹、营销数据、用户行为日志这种数据上试试，效果比你手动调参要省心多了。哦对了，推荐你顺带看看这

数据挖掘 0 2025-06-15

K-medoids基于划分的聚类算法

K-medoids 算法，顾名思义，和 K-means 类似，不过它可不直接用数据的平均值来做参照点哦。它选择的是聚类中最“中间”的数据，叫做中心点。基本思路就是随机挑选出 K 个数据点，根据最近的中心点来分配每个对象，之后再逐步迭代更新中心点，直到聚类效果不再有改进为止。它的优点？嗯，相比 K-means，它对离群点的敏感度更低，适用于一些不规则分布的情况，挺实用的。你如果想要做一些聚类任务，不妨试试 K-medoids，它在一些复杂数据集时有优势。

算法与数据结构 0 2025-06-14

基于划分的聚类算法-K-prototypes算法

K-prototypes算法是结合了K-Means与K-modes算法，专门用于处理混合属性数据。它解决了数值属性和分类属性同时存在的情况。具体而言，数值属性通过K-means方法得到聚类中心P1，而分类属性则通过K-modes方法得到聚类中心P2。然后，通过加权组合这两个中心来计算距离度量D，权重a决定了分类属性在计算中的重要性。更新簇中心的方法结合了K-Means与K-modes的更新策略。

算法与数据结构 14 2024-07-13

数据隐私与数据效用的平衡关于k-匿名性的权衡说明

研究人员经常利用多个数据集进行可信的计量经济学和统计分析。为确保数据链接的可靠性，他们通常依赖于唯一标识符。然而，这种联系可能会泄露个人的敏感信息，因此数据管理者可能会删除私人数据集中的某些个人信息以保护隐私。数据管理员保留的信息仍然允许研究人员链接数据集，尽管可能会出现一些错误。k-匿名性是一个解决隐私与数据链接之间平衡的概念框架，在实践中有着广泛的应用。从研究人员和数据管理者的角度探讨了数据组合和估计任务，强调了k-匿名性对数据管理和研究的重要性及其影响。

统计分析 17 2024-07-17

Hadoop 安全与隐私保护

Hadoop 安全机制保障了大数据平台数据隐私与安全，有效防御外部攻击和内部威胁。

Hadoop 14 2024-05-01

基于极大关联属性集分解的高维数据隐私保护方法

在高维数据匿名发布中，传统的抽象化技术易造成信息缺损，导致发布数据在实际应用中的价值下降。而分解技术虽然确保了数据真实性，却因视图划分破坏了属性间的内在关联，进一步限制了数据的可用性。针对这一问题，该文提出了基于极大关联属性集的分解法（MAAD）。MAAD借助频繁模式挖掘技术，寻找具有强关联性的属性组，以此指导多视图分解的生成。通过优先考虑属性间的关联性，MAAD生成的多视图在隐私保护与数据挖掘性能之间实现了平衡。

数据挖掘 8 2024-10-26

基于马尔可夫模型的同态加密位置隐私保护方案

基于马尔可夫模型的同态加密方案，挺适合搞位置隐私保护的朋友。它用马尔可夫链预测用户查询行为，用同态加密把整个过程包起来。查询走预测、数据跑密文，隐私保护和性能平衡得还不错。历史高频内容+状态转移预测，响应快、误差小，实战场景比如 LBS、推荐系统都能用上。嗯，要是你正好在做匿名化、k 匿名、HMM 相关的东西，那这套逻辑你肯定不陌生。链接我也放这了，感兴趣的可以点进去看看源码和算法细节。

统计分析 0 2025-06-23