数据挖掘 - 代码谷

基于MapReduce的机器学习加速算法

你是不是也常常遇到多核器的机器学习任务跑得慢？《基于 MapReduce 的机器学习》这篇论文挺有意思，它了一种通过 MapReduce 框架加速机器学习算法的并行化方法。这个方案不仅适用于多核器，还能在多种算法上取得不错的效果，比如 K 均值、逻辑回归、支持向量机等。重点是，它通过 MapReduce 把计算过程分成 Map 阶段和 Reduce 阶段，轻松让算法并行化，提高了执行效率。想要提升机器学习任务的速度，或者在多核系统下跑得更快？这篇论文给出了挺实用的思路，值得了解一下。

数据挖掘 0 2025-07-03

数据挖掘资料

数据挖掘是一门综合性的数据分析技术，它从大量的、不完全的、有噪声的、模糊的实际应用数据中，通过算法和模型去提取有用信息，预测趋势和行为，以辅助决策制定的过程。随着大数据时代的到来，数据挖掘技术在商业领域的应用变得日益广泛，特别是在个性化服务、电子商务、社交网络、移动互联网等场景中发挥着越来越重要的作用。在商业应用中，常用的数据挖掘算法包括关联算法、分类算法、聚类算法以及RFM模型等。关联算法的作用是发现数据之间的关系，它通过将相关的商品或服务摆放在一起，以期望提高整体的销售量。在电商领域，关联算法可以应用于商品推荐，通过分析顾客的购物篮数据来发现商品之间的关联规则，从而促进销售。分类算法的主要

数据挖掘 0 2025-07-03

基于案例学习数据挖掘培训视频全套完整版-6

基于案例学习数据挖掘培训视频全套完整版-Week12_Part02

数据挖掘 0 2025-07-03

数据挖掘课件（ETL工具）

数据挖掘是一种从海量数据中提取有价值信息的过程，它结合了计算机科学、统计学和机器学习等领域的知识。在这个“数据挖掘课件（ETL工具）”中，我们重点关注的是数据预处理的重要环节——ETL（Extract, Transform, Load），以及在数据挖掘中扮演关键角色的朱建秋教授的相关研究。 ETL是数据仓库系统的核心组成部分，它负责将分散、异构的数据从源系统抽取出来，经过清洗、转换，然后加载到目标数据库或数据仓库中。这个过程对于确保数据分析的质量和准确性至关重要。 1. **抽取（Extract）**：这一阶段是从各种数据源（如关系型数据库、文本文件、Excel表格等）中获取数据。抽取过程中需

数据挖掘 0 2025-07-03

云计算的定义-刘鹏云计算与数据挖掘

云计算的定义云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。 *

数据挖掘 0 2025-07-03

数据挖掘白皮书，数据挖掘的入门教材

介绍什么是数据挖掘,数据挖掘可以做什么.数据挖掘是一种高级数据分析技术，它从日常积累的、海量的信息库中提炼、抽取、发现隐藏的、间接的、有意义、有价值的、可以直观表达的规则、知识和信息，辅助管理人员制定正确的决策。数据挖掘不能告诉你为什么一件事情会发生，但能告诉你可能会发生什么事情，数据挖掘得出的结论往往最具有客观性、可用性、和隐藏性，是其他方法所望尘莫及的。数据挖掘是一种高级数据分析技术，其核心在于从海量的、日常积累的信息库中提炼、抽取并发现隐藏的、有价值的知识和信息。数据挖掘不侧重于解释事件发生的原因，而是预测可能出现的结果，提供客观、可用和隐蔽的洞察，这些洞察在其他分析方法中难以获取。与传

数据挖掘 0 2025-07-03

Data Mining Patterns数据挖掘模式合集

数据挖掘里的经典套路，data-mining-patterns 是个蛮实用的资料合集。整理了关联规则、频繁项集、多层模式这些常见模式的算法和实践文章，内容不深奥，上手挺快的。适合你快速回顾或补补基础。像是用 Apriori 算法挖频繁项集，文章里讲得清楚，还有代码和示例。你可以看看使用 Apriori 算法挖掘频繁项集与关联规则这篇，例子简单明了。想了解模式背后的思路？挖掘关联规则的重要性及频繁模式挺适合。作者讲了怎么判断哪些规则有价值，还有些业务场景的小案例。如果你对非频繁模式、加权规则这些冷门方向感兴趣，非频繁模式关联算法和加权负关联规则挖掘也都收录了，偶尔遇到复杂数据集可以用上。多

数据挖掘 0 2025-07-03

EoyooCMS Mature 2.0ASP.NET内容管理系统

基于 B/S 架构的 EoyooCMS Mature 2.0，算是我用过比较顺的 ASP.NET 内容管理系统之一了。团队是从 2007 年就开始整活的老牌开发，系统基本功扎实，像数据库结构、底层逻辑、前端 UI 都是一手包办，没外包那一套，稳定性、扩展性都不错。多模型的设计灵活，文章、图册、视频、下载、人才这些常见类型都支持，而且字段还能自定义扩展，基本能应付绝大多数建站需求。你要建企业站、资源站、甚至商城的雏形，也都能搞得定。后台体验算是让我印象最深的，界面不花哨但顺手，程序员、设计师、运营各自用起来都不卡手。搭配上C#+AJAX加持的极速访问，响应也快，页面跳转干脆利落。不懂代码？

数据挖掘 0 2025-07-03

MINE_OS PhysicalPlatform操作系统内核原型

多核器的性能释放越来越猛，MINE_OS_PhysicalPlatform就冲着这股东风来了。作者脑洞挺大，想着把人工智能和数据挖掘塞进操作系统内核，让系统自己“学着用”，像量身定做一样服务用户。虽然现在还只是个原型，但基础已经打好了，核心部分是参考了《一个 64 位操作系统的设计与实现》那本书的代码，系统名字也挺有意思，叫 MINE——自己的。编译环境比较传统，用的还是 CentOS 7 + GCC 4.8.5 + NASM 2.10.07。但也了，项目走的是稳定路线，没搞那些花里胡哨的依赖。代码结构清晰，写法也中规中矩，自己折腾不容易迷路。如果你对操作系统内核感兴趣，尤其是想尝试点

数据挖掘 0 2025-07-03

CS224n中文笔记合并版含标签整理

问题的 CS224n 中文笔记整理，蛮适合做房价建模相关参考。全套内容不光翻译到了中文，还加了标签，逻辑清晰，查找也方便。像蛛网模型、灰色预测这种经典概念，解释得挺通俗，直接就能看懂。尤其对要用数学建模做城市房价预测的朋友来说，这份笔记省了不少资料整理的功夫，思路也顺了不少。

数据挖掘 0 2025-07-03