PrefixSpan算法实例解析

以表一中的序列数据库S为例,设定最小支持度min_support=2。数据库中包含的项集为{a,b,c,d,e,f,g},共有五个序列:(a),(abc),(ac),(d)和(cf)。

序列长度与支持度

序列 (abcdefg) 的长度为9,因为它包含9个项。由于该序列在整个数据库中只出现一次,所以其支持度为1。

序列模式判断

序列 (ac) 是序列 (abcdefg) 的一个子序列。在数据库中,序列10包含2个 (ac) 子序列,序列30包含1个 (ac) 子序列,因此 (ac) 在整个数据库中出现3次,其支持度为3。由于3大于最小支持度2,所以 (ac) 是一个序列模式。

表一 序列数据库

| Sequence_id | Sequence |

|---|---|

| 10 | abcdefg |

| 20 | abc |

| 30 | ac |

| 40 | d |

| 50 | cf |