NLP 数据不平衡怎么处理？重采样、Focal Loss 和评估指标详解

Question

Levenx · Accepted Answer

数据不平衡的核心问题：模型倾向于预测多数类，因为这样做在训练集上损失最低。比如 95% 正面 + 5% 负面的情感数据，模型全猜正面也有 95% 准确率——但负面的召回率是 0。解决思路分三层：数据层（调整样本分布）、算法层（调整学习过程）、评估层（选对指标）。数据层：重采样过采样：复制少数类样本。最简单的是随机复制，但容易过拟合——模型反复看到同样的样本。NLP 里更好的做法是回译（中文翻英文再翻回来，得到语义相同但表达不同的新样本）和同义词替换，这比 SMOTE 在文本上更自然。欠采样：随机丢弃多数类样本。数据量大时有效，但可能丢掉有用信息。折中方案是 EasyEnsemble：对多数类做多次不同的欠采样，每次训练一个子模型，最后集成投票——既不丢信息也不偏多数类。算法层：损失函数调整类别加权：给少数类的损失乘一个更大的权重，公式 weight_i = N / (C × n_i)，让模型在少数类上犯错代价更高。PyTorch 里 CrossEntropyLoss(weight=torch.tensor([0.5, 10.0])) 一行搞定。Focal Loss：比加权更聪明。它自动

NLP 数据不平衡怎么处理？重采样、Focal Loss 和评估指标详解

数据层：重采样

算法层：损失函数调整

评估层：别看准确率

实际怎么选方案