实际生活中的很多问题都是非线性的,不可能使用全局线性模型来进行拟合数据,有一种方法是将数据集切分成为很多份易于建模的数据,然后再利用上一节所使用的方法,线性回归技术,来进行建模,如果首次切分后还是很难以拟合线性模型,我们就继续进行切分。使用树回归发给发就比较有用。
预剪枝就是及早的停止树增长,在构造决策树的同时进行剪枝。所有决策树的构建方法,都是在无法进一步降低熵的情况下才会停止创建分支的过程,为了避免过拟合,可以设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支。但是这种方法实际中的效果并不好。
CART模型是应用广泛的决策树学习方法,由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法,CART假设决策树是二叉树,内部特征结点的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支,这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。对CART稍作修改就可以处理回归问题。 这里有一篇比较好的CART解释文章。
用树来对护具进行建模,除了把叶节点简单地设定为常熟值外,还有一种方法是把叶节点设定为分段线性函数,分段线性也就是指模型由多个线性片段组成。模型树的可解释性优于回归树,其预测准确度也比较高。
代码可参考: https://blog.csdn.net/u010859707/article/details/78180285