数据不平衡

数据不平衡指的是监督学习中,样本的类别分布不平衡,比如fraud detection中欺诈和正常的比例为1:10000.因为大部分算法是基于样例的,训练过程是最小化所有样例的预测值和真实值之间的差.这样小类别很容易被忽略.

数据不平衡怎么处理?

一般来说,数据不平衡的处理方法分为基于采样和基于损失函数的.

基于采样的有

  • 重采样,对少数类结合数据增强进行过采样

  • 欠采样,对多数类进行欠采样

基于损失函数的主要是

  • 调整类的权重(错误分类成本),使已有的算法对少数类更加敏感

有项目imbalanced-learn可以用来处理数据不平衡问题.有兴趣的可以试试.