我正在尝试实现基于伪的决策树算法。
但是,我不明白为什么第一个节点应该是Outlook。
Outlook的基尼系数不应该是1-(5/14)^ 2-(5/14)^ 2-(4/14)^ 2 = 0.663265306,湿度的基尼系数应该是= 1-(4/14 )^ 2-(6/14)^ 2-(4/14)^ 2 = 0.653061224?
由于基尼系数代表属性的杂质,因此选择基尼系数较低的属性更为合理。
我找到基尼系数的方法是否错误,或者还有其他我应该知道的东西?
数据
Rainy Hot High FALSE No
Rainy Hot High TRUE No
Overcast Hot High FALSE Yes
Sunny Mild High FALSE Yes
Sunny Cool Normal FALSE Yes
Sunny Cool Normal TRUE No
Overcast Cool Normal TRUE Yes
Rainy Mild High FALSE No
Rainy Cool Normal FALSE Yes
Sunny Mild Normal FALSE Yes
Rainy Mild Normal TRUE Yes
Overcast Mild High TRUE Yes
Overcast Hot Normal FALSE Yes
Sunny Mild High TRUE No
基尼度量是纯度的度量。对于两个类别,均等分割的最小值为0.5。然后,基尼系数随任一类的比例增加而增加。当基尼度量为1时,则该类别在一个或另一个类别中的纯度为100%。
决策树的目的是使孩子们的纯洁程度最大化。毕竟,这就是模型通过分离它们来“学习”识别类的方式。因此,您需要更大的基尼系数,而不是较小的基尼系数。根据您的计算,这将是Outlook,而不是湿度。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句