伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 站长资讯 » 文章详细 订阅RssFeed

[DM]集成学习

来源:本站原创 浏览:89次 时间:2022-05-08

一、Bagging

二、基于决策树的Bagging:RandomForests,RF

Boosting

四、Adaboost

这是DM数据挖掘系列最后一篇推文,在这里感谢小编的室友连吃13碗提供的一系列推文手稿。




在解决分类问题时,假如分类模型不够强大,对样本的分类结果就不会很理想。这时如果我们多找一些分类模型,让它们一起做决策,模型强度会不会高一点呢?

集成学习就是把多种分类器按策略组合起来,并根据所有分类器的分类结果做出最后的判断。

如下图,三种分类器的分类结果都有一点点错误,如果把三类组合在一起就可以完美地把所有形状都区分开,而且分割曲线也较为平滑。

集成学习属于监督学习中的分类问题,分为boosting和bagging两大类。


一、Bagging

如何得到不同的分类器呢?我们可以调整同一训练模型的不同参数,或者使用不同的训练样本训练不同的模型。

有放回的采样(Bootstrap Samples):

每次拿出一个小球,记录之后放回。这样既保留了数据规律,又得到了不同的训练样本。

Bagging算法框架如下图:

根据有放回采样(选出F%的样本)训练出T个分类器,分别对测试样本进行分类,然后投票决定测试样本到底属于哪类。

少数服从多数,所有分类器的地位完全等同。

 


二、基于决策树的Bagging:RandomForests,RF

n个样本,有放回的取出n个样本,取n次。当n趋近于无穷的时候,大概有2/3的样本被选过。

剩下的1/3(out of bag,OOB)正好可以去做测试。

随机森林:

树的数量为500较为合适(满足要求即可)。为了生成不同的树,首先对样本用有放回的采样随机选取出样本,使用不同的属性对树进行分层。

样本属性数量,我们随机选取个属性对树进行划分。这样可以有效加快树的建立过程。


三、Boosting

Boosting中分类器的生成过程并不是平行的,下一个分类器的生成是根据上一个分类器中分类对错情况来决定的。

而且在boosting中又增加了一个分类器,把所有子分类器的输出当作该判别器的输入,而且对每条输入都设置了权重。分类器对权重进行训练、学习后得到分类结果。

Boosting框架如下图所示:

Boosting伪代码:


四、Adaboost

Adaboost算法是boosting中的一个门类,算法思想与boosting一致。可以证明,adaboost的误差上界会随着训练的进行而越来越小。 

Adaboost算法框架如下:

D1(i)表示每个样本的权重,如果某些样本之前被分错了,它们的Dt+1(i)就会增大,之后分类器对这些样本划分时就会越关注。

表示样本训练误差。由生成,同时也表示每个分类器的权重。

Adaboost算法中的参数设置很少,训练过程几乎全靠数据驱动。而且随着迭代代数的增加,训练并不会出现过拟合的情况。

但因为最终的分类结果由50(或更多)个分类模型组合得到,所以分类依据的可解释性并不好。

 

如下图为adaboost算法在matlab中的实现。将50个简单的线性分类器组合起来,就能形成一条相对复杂的分割界面。


  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net