机器学习预处理方法总结

样本不均衡的处理方法

假定样本数目 A 类比 B 类多,且严重不平衡。可使用以下几种方法1

1)A 类欠采样(Undersampling)

  • 随机从 A 采样一组和 B 数量差不多的样本,然后生成树,重复几次,生成森林;
  • 将 A 类样本分成若干子集,分别与 B 类样本进入学习模型;
  • 将 A 类样本聚类成若干类,然后随机从各类中采样部分样本,最后组成一个和 B 类差不多的样本进入学习模型。

2)B 类过采样/重采样(Oversampling)

  • 复制 B 类样本多份,形成和 A 差不多的数量。

(这种方法不是很好,如果 B 类有噪声,可能因复制多份造成放大效果)

3)B 类数据合成(Synthetic Data Generation)

  • 人工合成补充 B 类样本数,随机选择两个样本,从这两个样本之间插值一个出来,形成新样本,这个样本也认为是原始样本,可以参与下一次的样本选择。

(这种方法叫 SMOTE(Synthetic Minority Over-sampling Technique),有点类似造数据)

4)代价敏感学习(Cost Sensitive Learning)

  • 降低 A 类权值,提高 B 类权值。

 

(待完善……)

参考资料

 


1 邹博. 机器学习
© 除特别注明外,本站所有文章均为卢明冬的博客原创 , 转载请注明作者和文章链接。
© 本文链接:https://lumingdong.cn/summary-of-pre-processing-methods-for-machine-learning.html
相关文章
写下您的评论...