PrefixSpan算法实例解析
以表一中的序列数据库S为例,设定最小支持度min_support=2。数据库中包含的项集为{a,b,c,d,e,f,g},共有五个序列:(a),(abc),(ac),(d)和(cf)。
序列长度与支持度
序列 (abcdefg) 的长度为9,因为它包含9个项。由于该序列在整个数据库中只出现一次,所以其支持度为1。
序列模式判断
序列 (ac) 是序列 (abcdefg) 的一个子序列。在数据库中,序列10包含2个 (ac) 子序列,序列30包含1个 (ac) 子序列,因此 (ac) 在整个数据库中出现3次,其支持度为3。由于3大于最小支持度2,所以 (ac) 是一个序列模式。
表一 序列数据库
| Sequence_id | Sequence |
|---|---|
| 10 | abcdefg |
| 20 | abc |
| 30 | ac |
| 40 | d |
| 50 | cf |