决策树算法

mac2022-06-30  28

三种停止条件

当前结点包含的样本全属于同一类别,无需划分当前属性集为空,或是所有样本在所有属性上的取值相同,无法划分当前结点包含的样本集合为空,不能划分

决策树总体流程

核心数学概念:熵

集合“纯度”,熵值越小,纯度越高(标签越一致)

怎么寻找最优划分属性?

信息增益

本身是对离散型数据来切分的,

假设数据取值特别多,比如order_id,它会把每一个order划分到一个分支里,但这样没有意义。可以理解为容易过拟合。

改进:信息增益率(信息增益的改进) gain ratio  C4.5

转载于:https://www.cnblogs.com/datalearner/articles/11536651.html

相关资源:JAVA上百实例源码以及开源项目
最新回复(0)