• 不平衡数据处理--学习笔记


    1. 不平衡数据:训练数据不是均匀分布的,出现数据集中分布,某些类型的数据较少
    2. 传统的解决方法:
      1. 基于数据:对少数群体进行过采样,对多数群体进行下采样。    
      2. 基于模型:对损失函数的重加权(re-weighting)或利用相关的学习技巧:迁移学习,元学习,两阶段训练
      3. 主要针对离散的类别标签数据:目标值属于不同的类别,并且具有严格的硬边界,不同类别之间没有重叠。
    3. 年龄是一个连续的目标值,并且在目标范围内可能会高度失衡。
    4. 在连续域的不平衡问题在线性模型和深度模型中都是存在的,在深度模型中甚至更为严重,这是因为深度学习模型的预测往往都是over-confident的,会导致这种不平衡问题被严重的放大。
    5. 深度不平衡回归问题(DIR):即从具有连续目标值的不平衡数据中学习,同时需要处理某些目标区域的潜在确实数据,并使最终模型能够泛化到整个支持所有目标值的范围上。
    6. 解决DIR问题的三个挑战如下:
      1. 对于连续的目标值(标签),不同目标值之间的硬边界不再存在,无法直接采用不平衡分类的处理方法。
      2. 连续标签本质上说明在不同的目标值之间的距离是有意义的。这些目标值直接告诉了哪些数据之间相隔更近,指导我们该如何理解这个连续区间上的数据不均衡的程度。
      3. 对于DIR,某些目标值可能根本没有数据,这为对目标值做extrapolation和interpolation提供了需求。
    7. 解决方法:
      1. 解决方法一:标签分布平滑(LDS) 
        1. 背景:对于连续标签,其经验标签密度并不能准确地反映模型所看到的不均衡。这是因为相临标签的数据样本之间是相关的,相互依赖的。
        2. 核密度估计LDS,给定连续的经验标签密度分布,LDS使用了一个对称核函数k,用经验密度分布与之卷积,得到一个kernel-smoothed的有效标签密度分布,用来直观体现临近标签的数据样本具有的信息重叠问题,通过LDS计算出的有效标签密度分布结果与误差分布的相关性明显增强。
        3. 实际使用:重加权,通过将损失函数乘以每个目标值的LDS估计标签密度的倒数来对其进行加权。
      2. 解决方法二:特征分布平滑(FDS)
        1. 如果模型预测正常且数据是均衡的,那么label相近的samples,它们对应的feature的统计信息应该也是彼此接近的。
        2. FDS是对特征空间进行分布的平滑,本质上是在临近的区间之间传递特征的统计信息。此过程的主要作用是去校准特征分布的潜在的有偏差的估计,尤其是对那些样本很少的目标值而言。
  • 相关阅读:
    微服务(二) php laravel 用户客户端
    Hbase底层原理简介(二)
    Avalonia 实现聊天消息渲染、图文混排(支持Windows、Linux、信创国产OS)
    第一个 Shell 脚本
    Qt软键盘使用和修改软键盘参数 支持中文
    OceanBase 来参加外滩大会了(内附干货PPT)
    奇舞周刊第495期:软件高可用实践那些事
    如何开始着手一篇Meta分析 | Meta分析的流程及方法
    Mysql基础
    Windows安装Ubuntu、Docker
  • 原文地址:https://blog.csdn.net/weixin_45647721/article/details/128209608