关联规则是数据挖掘中一项重要技术,用于发现数据项集之间的关联性。在吉林大学数据挖掘课程中,关联规则被定义为形如 X ⇒ Y 的蕴含式,其中 X 和 Y 是数据项集,且 X 与 Y 不相交。
支持度和置信度是衡量关联规则重要性的两个关键指标:
- 支持度: 指包含 X 和 Y 的事务在所有事务中所占的比例,用于衡量规则的普遍性。
- 置信度: 指包含 X 的事务中,也包含 Y 的事务所占的比例,用于衡量规则的可靠性。
简而言之,高支持度的规则表明该关联关系在数据集中频繁出现,而高置信度的规则表明该关联关系具有较高的预测能力。