分类器融合(6):融合模型总结

| 研究学术  | 机器学习基础  分类器融合 

一、分类器融合策略

融合类型 混合(blending) 学习(learning)
均匀(uniform) voting/averaging Bagging
非均匀(non-uniform) linear AdaBoost
有条件(conditional) stacking Decision Tree

对于非均匀和条件融合,$g_t$可以视为特征转换。

混合(blending)方法是选择了不同的$g_t$之后再融合,学习(learning)方法是在选择(学习)不同$g_t$的同时进行融合。

均匀融合性能比较稳定,不同$g_t$相互修正,类似正则化的中庸思想。非均匀和条件融合,学习之上的再学习过程,增加了复杂度,功能强大,存在更大的过拟合风险。

二、基于学习机制的分类器融合方法对比

  获取不同$g_t$的方法 融合策略 优化算法
Bagging bootstrapping uniform vote  
AdaBoost reweighting linear vote steepest search
GradientBoost residual fitting linear vote steepest search
Decision Tree data splitting conditional vote branching
  • random forest = randomized bagging + strong DTree;
  • AdaBoost-DTree = AdaBoost + weak DTree;
  • GBDT = GradientBoost + weak DTree.

boosting系列的算法应用非常广泛。

三、融合机制的双重性

[左]:融合解决欠拟合;[右]:融合解决过拟合
图 1: [左]:融合解决欠拟合;[右]:融合解决过拟合 [PNG]
  1. 融合可以解决欠拟合问题。单一的$g_t$能力较弱,通过AdaBoost或GradientBoost的方法得到强大的$G(\mathbf x)$。融合相当于利用了特征转换的功能。
  2. 融合可以解决过拟合问题。通过融合可以得到中庸(moderate)的$G(\mathbf x)$。融合相当于利用了正则化的功能,如上图右的large-margin效果。

因此,合适的融合(aggregation or ensemble)机制可以提升分类器的性能。


打赏作者


上一篇:分类器融合(5):梯度提升决策树     下一篇:神经网络