三种停止条件
当前结点包含的样本全属于同一类别,无需划分当前属性集为空,或是所有样本在所有属性上的取值相同,无法划分当前结点包含的样本集合为空,不能划分
决策树总体流程
核心数学概念:熵
集合“纯度”,熵值越小,纯度越高(标签越一致)
怎么寻找最优划分属性?
信息增益
本身是对离散型数据来切分的,
假设数据取值特别多,比如order_id,它会把每一个order划分到一个分支里,但这样没有意义。可以理解为容易过拟合。
改进:信息增益率(信息增益的改进) gain ratio C4.5
转载于:https://www.cnblogs.com/datalearner/articles/11536651.html
相关资源:JAVA上百实例源码以及开源项目