使用基尼系数的决策树

Lebanner 发表于 Dev

黎巴嫩人

我正在尝试实现基于伪的决策树算法。

但是，我不明白为什么第一个节点应该是Outlook。

Outlook的基尼系数不应该是1-（5/14）^ 2-（5/14）^ 2-（4/14）^ 2 = 0.663265306，湿度的基尼系数应该是= 1-（4/14 ）^ 2-（6/14）^ 2-（4/14）^ 2 = 0.653061224？

由于基尼系数代表属性的杂质，因此选择基尼系数较低的属性更为合理。

我找到基尼系数的方法是否错误，或者还有其他我应该知道的东西？

数据

Rainy   Hot High    FALSE   No
Rainy   Hot High    TRUE    No
Overcast    Hot High    FALSE   Yes
Sunny   Mild    High    FALSE   Yes
Sunny   Cool    Normal  FALSE   Yes
Sunny   Cool    Normal  TRUE    No
Overcast    Cool    Normal  TRUE    Yes
Rainy   Mild    High    FALSE   No
Rainy   Cool    Normal  FALSE   Yes
Sunny   Mild    Normal  FALSE   Yes
Rainy   Mild    Normal  TRUE    Yes
Overcast    Mild    High    TRUE    Yes
Overcast    Hot Normal  FALSE   Yes
Sunny   Mild    High    TRUE    No

这是我正在构建的决策树的伪代码

这是答案

戈登·利诺夫

基尼度量是纯度的度量。对于两个类别，均等分割的最小值为0.5。然后，基尼系数随任一类的比例增加而增加。当基尼度量为1时，则该类别在一个或另一个类别中的纯度为100％。

决策树的目的是使孩子们的纯洁程度最大化。毕竟，这就是模型通过分离它们来“学习”识别类的方式。因此，您需要更大的基尼系数，而不是较小的基尼系数。根据您的计算，这将是Outlook，而不是湿度。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。