关联规则知识点详解####一、关联规则概述1.1问题提出在日常生活中,我们经常会遇到一些看似无关的商品被放在一起销售的情况。比如啤酒和尿布这两种截然不同的商品,为什么会被商家放在一起呢?这是因为商家通过对销售数据的分析发现了一种现象:一些顾客在购买婴儿尿布的同时,也很可能会购买啤酒。进一步的研究表明,这种购买行为主要是由年轻父亲在执行家庭采购任务时所产生的。 1.2关联分析定义关联分析是一种数据挖掘技术,由R.Agrawal在1993年提出。它从数据集中发现不同属性之间的相互联系,即找到满足一定支持度和支持度阈值的关联规则。例如,通过分析超市销售数据,我们可以发现“购买床单的顾客有80%的概率也会购买枕套”这样的关联规则。这种发现对于优化商品布局、提高销售效率等方面具有重要意义。 1.3关联规则的定义关联规则是一种无监督的机器学习方法,用于发现数据中的模式和联系。它通常表示为“如果A发生,则B发生的概率是多少”。例如,在超市事务数据中,我们可能会发现“如果顾客购买了苹果和咖啡,则他们购买黄油和甜甜圈的可能性较高”。 ####二、关联分析的应用场景2.1应用场景举例 - 优化货架布局:根据关联规则来调整商品的摆放位置,使得顾客能够更方便地找到想要购买的商品组合。 - 交叉销售:如果发现顾客在购买A商品时往往会同时购买B商品,那么可以在售卖A商品的地方提供B商品作为附加选择。 - 搜索推荐:在电商平台中,根据用户的搜索历史推荐相关商品。 - 异常检测:发现不符合常规的购买模式,从而识别潜在的问题或欺诈行为。 ####三、关联分析的基本概念3.1基本概念介绍 - 频繁项集:是指在数据集中出现频率超过一定阈值的项目集合。 - 客户编号:用来唯一标识一个事务。 - 项目集:即某个事务中包含的商品集合。 ####四、Apriori算法4.1 Apriori算法概述 Apriori算法是一种经典的关联规则挖掘算法,主要用于寻找频繁项集。它的核心思想是利用了频繁项集的性质——Apriori属性:如果一个项集是非频繁的,那么它的所有超集也是非频繁的。 4.2 Apriori属性 Apriori算法利用了以下步骤: 1. 初始化:扫描数据库,获取所有