数据挖掘 - 代码谷

机器学习中的特征无量纲化操作指南

在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性。例如，2cm和0.2kg如何直接比较？无量纲化处理的方法很多，选择不同方法会对机器学习模型产生不同的影响。常用方法包括归一化（Normalization）等。示例代码： from sklearn.datasets import load_iris # 导入IRIS数据集 iris = load_iris() from sklearn.preprocessing import StandardScaler # 标准化，返回值为标准化后的数据 scaled_data = StandardSc

数据挖掘 5 2024-11-07

Next-Gen Personalized Push System OnePush by George Chu at Cloud Computing Summit

在第五届中国云计算大会上，雅虎北京全球研发中心资深研发总监George Chu介绍了OnePush系统，这是雅虎在数据挖掘领域取得的最新成果。OnePush是一个下一代个性化智能推送系统，解决当前用户通知面临的一些普遍问题。在了解OnePush之前，我们先来看看当前行业普遍存在的问题。在当今移动设备和应用普及的时代，用户通知系统常面临着消息丢失、垃圾消息过多、消息不及时送达、同一消息对同一用户多设备重复发送、与大量过时信息同步、以及其他有趣信息难以被发现等问题。这些问题严重影响了用户体验，使得用户难以及时获取真正需要的信息。针对这些挑战，雅虎提出了OnePush的愿景，即在正确的时间和地点

数据挖掘 13 2024-11-07

基于数据挖掘技术动态实现财会软件智能感知功能

介绍了数据挖掘与软件智能感知的基本概念。探讨了在软件智能感知实现过程中用数据挖掘技术代替手工处理的可行性。作者综合了知识发现领域已有的研究成果，并结合财会软件的智能化，提出了一个实用的挖掘算法。该算法能够动态地从软件不断积累的数据中提取关联规则知识，并根据用户的工作状态智能化地调整科目显示顺序。通过这种方式，能够避免进行大量的计算。实验结果表明，该算法在实际应用中是可行的。

数据挖掘 16 2024-11-07

KMeans聚类分析案例_顾客数据集

KMeans聚类分析案例——顾客数据集导入数据集：加载顾客数据集，对数据进行预处理，清洗缺失值和异常值。特征选择：根据业务需求选择与顾客行为相关的特征，如年龄、收入、购买频率等。标准化处理：使用标准化方法处理特征，确保数据尺度一致。选择K值：通过肘部法则或轮廓系数确定最佳的聚类数K。聚类建模：应用KMeans算法进行聚类，得到不同类型的顾客群体。聚类分析：分析每个聚类的特征，帮助企业制定个性化营销策略。可视化展示：使用降维技术如PCA进行可视化，方便观察不同顾客群体的分布情况。

数据挖掘 12 2024-11-07

基于数据仓库的油田数据挖掘技术应用研究

为了提取和挖掘出油田大量历史数据背后的“知识”，探索出油田生产中的规律性，从而更有效地进行生产调整和优化，以支持企业的重要决策，提出了基于石油企业历史数据和核心业务的数据仓库多主题数据挖掘系统的实施方案。方案采用MIS系统作为数据源，构建了包含ORACLE底层数据仓库服务器、OLAP服务器等组件的数据仓库。在多主题数据挖掘过程中，通过算法库反复验证，建立了感兴趣的模型库。结合大庆油田采油九厂生产辅助分析系统的应用实例以及其他相关应用，论证了该方案的可行性。

数据挖掘 6 2024-11-07

使用Excel快速掌握数据挖掘技能

《用Excel学数据挖掘.pdf》文档是数据挖掘入门的首选，尤其适合通过Excel进行数据整理和分析的用户。这本书详细讲解了如何运用Excel在办公室场景中挖掘数据价值，是提升办公技能的必备资源。

数据挖掘 7 2024-11-07

Data Mining Concepts and Techniques Second Edition

《数据挖掘概念与技术》（第二版）是数据科学领域的一部权威著作，由Jiawei Han和Micheline Kamber合著，全面介绍了数据挖掘的基础理论、核心技术和实际应用。数据挖掘概述 1.1 数据挖掘的重要性数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的信息和知识的过程。它有助于揭示数据背后的趋势和模式，支持企业决策、推动科学研究、改善公共服务等。 1.2 数据挖掘的概念数据挖掘涵盖多个阶段，包括数据清洗、数据集成、数据转换、数据规约、数据挖掘算法、模式评估和知识表示。其目标是从数据中自动检测模式并转化为可理解的知识。 1.3 数据挖掘的对象数据挖掘

数据挖掘 6 2024-11-07

深入解读数据库系统实现斯坦福大学经典教材

《数据库系统实现》是斯坦福大学计算机科学专业数据库课程系列中的重要教材，主要探讨数据库管理系统（DBMS）的实现原理。该书深入阐述了数据库管理系统的三大核心组件：存储管理器、查询处理器和事务管理器，并详细介绍了这些组件的实现技术。书中涵盖了信息集成的前沿技术，例如数据仓库、OLAP、数据挖掘、Mediator以及数据立方体系统等，为读者提供了数据库系统实现方面的全景视图。该书由斯坦福大学知名学者Hector Garcia-Molina、Jeffrey D. Ullman和Jennifer Widom撰写，被北京大学计算机系等高校用于研究生课程，并广泛应用于数据库技术的深入学习与研究。译者希望

数据挖掘 4 2024-11-07

数据挖掘中的并行处理技术与应用研究

数据挖掘与知识发现定义: 数据挖掘是一种从大量数据中自动搜索隐藏于其中的信息和知识的过程。目的: 发现有价值的信息来辅助决策制定。应用场景: 商业智能、市场分析、客户关系管理等。数据挖掘面临的挑战大数据挑战: 随着数据量的增加，传统的单机数据处理方式难以满足实时性要求。计算资源消耗: 大规模数据集的处理需要大量的计算资源。响应时间: 对于大规模数据集的数据挖掘，响应时间较长。并行数据挖掘并行计算基础: 并行计算是利用多台计算机同时处理任务的技术，可以显著提高处理速度。优势: 减少处理时间、提高数据处理能力、增强模型的准确性。关键技

数据挖掘 6 2024-11-07

Data_Mining_Concepts_Models_Methods_Algorithms

数据挖掘——概念、模型、方法和算法 DATA MINING Concepts，Models，Methods，and Algorithms（美）Mehmed Kantardzic著，闪四清、陈茵程、雁等译，清华大学出版社

数据挖掘 6 2024-11-07