机器学习预处理方法总结

1.样本不均衡的处理方法

假定样本数目 A 类比 B 类多,且严重不平衡。可使用以下几种方法1

1)A 类欠采样(Undersampling)

  • 随机从 A 采样一组和 B 数量差不多的样本,然后生成树,重复几次,生成森林;
  • 将 A 类样本分成若干子集,分别与 B 类样本进入学习模型;
  • 将 A 类样本聚类成若干类,然后随机从各类中采样部分样本,最后组成一个和 B 类差不多的样本进入学习模型。

2)B 类过采样/重采样(Oversampling)

  • 复制 B 类样本多份,形成和 A 差不多的数量。

(这种方法不是很好,如果 B 类有噪声,可能因复制多份造成放大效果)

3)B 类数据合成(Synthetic Data Generation)

  • 人工合成补充 B 类样本数,随机选择两个样本,从这两个样本之间插值一个出来,形成新样本,这个样本也认为是原始样本,可以参与下一次的样本选择。

(这种方法叫 SMOTE(Synthetic Minority Over-sampling Technique),有点类似造数据)

4)代价敏感学习(Cost Sensitive Learning)

  • 降低 A 类权值,提高 B 类权值。

 

(待完善……)

2.参考资料

 


1 邹博. 机器学习
© 除特别注明外,本站所有文章均为卢明冬的博客原创 , 转载请联系作者。
© 本文链接:https://lumingdong.cn/summary-of-pre-processing-methods-for-machine-learning.html
卢明冬

大千世界,人生百态,世事万物,皆无所固形。 行走于世,自当因变而变,写此文,以自省。 人性不离根泽,形之百变,亦可应万物。 凡人之处世,皆不能守固而据,应思变而存。 既可谨言慎行指点江山,又可放浪形骸鲜衣怒马, 既可朝九晚五废寝忘食,又可浪迹天涯四海为家。 随形而居,随意而为,静则思动,动则思远。 虽困于束缚,又能借力束缚,虽惘于迷思,又能获于迷思。 看山是山,看水是水,有酒学仙,无酒学佛。 心存根本,又何惧变乎?

相关文章
写下您的评论...