信息增益计算示例:以天气数据集为例

本示例使用天气数据集 weather,目标是计算使用属性“wind”(风力)划分数据集 S 所获得的信息增益。

数据集 S:

| outlook | temperature | humidity | wind | play ball |

|---|---|---|---|---|

| sunny | hot | high | weak | no |

| sunny | hot | high | strong | no |

| overcast | hot | high | weak | yes |

| rain | mild | high | weak | yes |

| rain | cool | normal | strong | no |

| overcast | cool | normal | strong | yes |

| sunny | mild | high | weak | no |

| sunny | cool | normal | weak | yes |

| rain | mild | normal | weak | yes |

| sunny | mild | normal | strong | yes |

| overcast | mild | high | strong | yes |

| overcast | hot | normal | weak | yes |

| rain | mild | high | strong | no |

计算步骤:

  1. 计算数据集 S 的信息熵。
  2. 根据属性“wind”的取值将数据集 S 划分成子集。
  3. 分别计算每个子集的信息熵。
  4. 计算划分后子集信息熵的加权平均值。
  5. 信息增益 = 数据集 S 的信息熵 - 划分后子集信息熵的加权平均值。

具体计算过程:

(此处省略具体计算过程,建议参考信息熵和信息增益的计算公式进行计算。)

结果:

通过计算可以得到数据集 S 对属性“wind”的信息增益。