6月5日 18:23

TensorFlow 模型过拟合怎么破？7 种正则化技术实战对比

训练集准确率 99%，测试集只有 70%——这就是过拟合。模型把训练数据"背"下来了，遇到新数据就懵。TensorFlow 提供了一堆正则化工具，但问题不是没有工具，而是不知道什么时候用哪个、哪些能组合、哪些会冲突。

先判断是不是真的过拟合

别急着加正则化——先确认问题确实出在过拟合上：

训练 Loss 持续下降，验证 Loss 开始上升：典型的过拟合信号
训练和验证的差距持续增大：模型在训练集上越来越"专精"，泛化越来越差
训练集远小于模型容量：1 万条数据训练 100 万参数的模型，不过拟合才奇怪

如果训练和验证都在高位下不去，那是欠拟合——加正则化只会更差。先解决欠拟合（加层、加节点、换更好的特征），再考虑正则化。

L1 vs L2：权重惩罚的两种思路

两种正则化都是给损失函数加惩罚项，限制权重大小，但效果有本质区别。

L2 正则化（权重衰减）—— 最常用的默认选择

python
from tensorflow.keras import regularizers

model = tf.keras.Sequential([
    layers.Dense(128, activation="relu",
                kernel_regularizer=regularizers.l2(0.01)),
    layers.Dense(10, activation="softmax")
])

L2 惩罚权重的平方和，效果是让所有权重都变小但不会变成 0。系数 0.01 是典型起点——太小没效果，太大欠拟合。调参时按 10 倍调：0.001 → 0.01 → 0.1。

L1 正则化 —— 需要特征选择时才用

python
model = tf.keras.Sequential([
    layers.Dense(128, activation="relu",
                kernel_regularizer=regularizers.l1(0.01)),
    layers.Dense(10, activation="softmax")
])

L1 惩罚权重的绝对值和，能把不重要的权重压到精确的 0，起到自动特征选择的作用。但缺点也很明显：会让模型变得不稳定——微小的数据变化可能导致不同的特征被选中。

怎么选

场景	选择	原因
一般深度学习	L2	稳定，效果好
特征很多，想自动筛选	L1	稀疏化，自动选特征
不确定	L1 + L2（Elastic Net）	两种好处都占

python
# Elastic Net
kernel_regularizer=regularizers.l1_l2(l1=0.01, l2=0.01)

Dropout —— 最简单粗暴也最有效

Dropout 的原理一句话就能说清楚：训练时随机"关闭"一部分神经元，让模型不能依赖任何一条路径，必须学到冗余的特征表示。

python
model = tf.keras.Sequential([
    layers.Dense(256, activation="relu"),
    layers.Dropout(0.5),   # 训练时随机丢弃 50%
    layers.Dense(128, activation="relu"),
    layers.Dropout(0.3),   # 丢弃 30%
    layers.Dense(10, activation="softmax")
])

Dropout 的实战经验

Dropout 率不是越高越好：0.5 是全连接层的常见选择，但超过 0.5 会让模型容量不足，反而欠拟合
靠近输入的层用较低的 Dropout：前几层提取的是基础特征，丢失太多会影响后续所有层
卷积层一般不用 Dropout：卷积层参数少，本身不容易过拟合。如果非要加，用 0.1-0.2 的小比例，或者用 SpatialDropout（整通道丢弃）代替
推理时 Dropout 自动关闭：training=False 时 Dropout 不生效，不需要手动处理

SpatialDropout2D —— 卷积网络的 Dropout 变体

python
from tensorflow.keras.layers import SpatialDropout2D

model = tf.keras.Sequential([
    layers.Conv2D(64, 3, activation="relu"),
    SpatialDropout2D(0.2),  # 随机丢弃整个特征图通道
    layers.Conv2D(128, 3, activation="relu"),
])

普通 Dropout 在卷积层效果不好——相邻像素高度相关，丢掉零散的像素意义不大。SpatialDropout2D 丢弃整张特征图，强制模型不依赖某个特定通道，效果更好。

Batch Normalization —— 不只是正则化

Batch Norm 的初衷是加速训练（解决内部协变量偏移），但它有一个副作用：每个 mini-batch 的均值和方差带有随机性，相当于给每层输出加了噪声，起到了类似 Dropout 的正则化效果。

python
model = tf.keras.Sequential([
    layers.Dense(128),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.Dense(10, activation="softmax")
])

Batch Norm 的位置有讲究

把 Batch Norm 放在激活函数之前（Dense → BN → ReLU）而不是之后（Dense → ReLU → BN），这是学术界验证过的最佳实践。ReLU 会截断负值，放在 BN 之前会让 BN 看到的输入分布更完整。

Batch Norm 和 Dropout 的关系

这是一个常见的困惑：两者都有正则化效果，能不能一起用？

全连接网络：可以一起用，但有时 BN 的正则化效果已经够强，加 Dropout 反而过度正则化。建议先只用 BN，验证集表现不够再加 Dropout
卷积网络：BN 基本够了，通常不需要再加 Dropout
小 batch size（< 16）：BN 的均值/方差估计不稳定，正则化效果打折。这时 Dropout 更可靠

Early Stopping —— 最被低估的正则化手段

说句大实话：大部分过拟合问题，Early Stopping 就能解决。

python
from tensorflow.keras.callbacks import EarlyStopping

early_stop = EarlyStopping(
    monitor="val_loss",
    patience=5,           # 连续 5 个 epoch 没改善就停
    restore_best_weights=True,  # 回到最优权重
    mode="min"
)

model.fit(x_train, y_train,
          epochs=200,        # 设大点，让 EarlyStopping 决定什么时候停
          validation_data=(x_val, y_val),
          callbacks=[early_stop])

patience 是关键参数：设太小（如 2）可能训练还没充分收敛就停了；设太大（如 20）可能已经过拟合很久才停。5-10 是大多数任务的甜区。

restore_best_weights=True 很重要——不加这个，模型会在停止时保持最后一个 epoch 的权重（可能已经过拟合），而不是验证集上表现最好的那个 epoch。

数据增强 —— 用更多数据打败过拟合

所有正则化方法都是在有限数据上做文章，数据增强则是直接从源头解决问题：人工扩充训练数据量。

python
# 图像数据增强
data_augmentation = tf.keras.Sequential([
    layers.RandomFlip("horizontal"),
    layers.RandomRotation(0.1),
    layers.RandomZoom(0.1),
    layers.RandomContrast(0.1),
])

# 作为模型的第一层
model = tf.keras.Sequential([
    data_augmentation,
    layers.Conv2D(32, 3, activation="relu"),
    layers.MaxPooling2D(),
    layers.Flatten(),
    layers.Dense(10, activation="softmax")
])

数据增强的度

增强力度太弱等于没做，太强会生成不真实的图片。旋转超过 30 度、缩放超过 50% 的图像看起来已经不像原来的物体了，反而会误导模型。实际操作中，人眼看起来"还是同一张图"的增强幅度最合适。

NLP 数据增强的不同思路：文本数据不能旋转翻转，常用的方法是同义词替换、随机删词、回译（翻译成英文再翻回中文）。

学习率衰减 —— 间接正则化

学习率本身不是正则化手段，但衰减策略对过拟合有间接影响：后期降低学习率让参数更新幅度变小，相当于在最优解附近"精细调整"而不是大幅震荡。

python
from tensorflow.keras.optimizers.schedules import CosineDecay

lr_schedule = CosineDecay(
    initial_learning_rate=0.001,
    decay_steps=10000
)
optimizer = tf.keras.optimizers.Adam(learning_rate=lr_schedule)

余弦衰减比阶梯衰减更平滑，训练后期学习率趋近于 0，参数更新越来越小，不容易在最优解附近来回跳。

标签平滑 —— 防止模型过于自信

python
def label_smoothing_loss(smoothing=0.1):
    def loss(y_true, y_pred):
        num_classes = tf.shape(y_pred)[-1]
        y_true = tf.one_hot(tf.cast(y_true, tf.int32), num_classes)
        y_true = y_true * (1 - smoothing) + smoothing / tf.cast(num_classes, tf.float32)
        return tf.keras.losses.categorical_crossentropy(y_true, y_pred)
    return loss

model.compile(optimizer="adam", loss=label_smoothing_loss(smoothing=0.1))

标签平滑把 one-hot 标签从 [0, 1, 0] 变成 [0.033, 0.9, 0.033]（3 类、smoothing=0.1 时），不让模型对任何一个类别有 100% 的信心。这个技巧在图像分类比赛中几乎是被标配的——见效快、无副作用。

实战：组合使用正则化的策略

不是所有正则化方法都要一股脑加上。根据经验，推荐以下组合策略：

小数据集（< 10K 样本）

数据增强（图像）/ 回译增强（文本）
Early Stopping（patience=5-10）
Dropout（0.3-0.5）
L2 正则化（0.01）

中等数据集（10K - 100K 样本）

Early Stopping
Batch Normalization
轻度 Dropout（0.1-0.3）

大数据集（> 100K 样本）

Early Stopping
Batch Normalization
学习率衰减

数据量越大，越不需要激进的正则化——数据本身就是最好的正则化。

一个完整的过拟合诊断流程

假设你发现模型过拟合了，按这个顺序排查：

检查数据量 vs 模型大小：参数量远超样本量 → 减少模型层数或节点数
加 Early Stopping：最简单，效果立竿见影
加 Batch Norm：如果网络里还没有的话
加 Dropout：0.3 起步，逐步增大直到验证集表现不再提升
加 L2 正则化：0.01 起步
数据增强：如果适用的话

每加一种正则化，观察训练/验证曲线的变化。不要一次加好几种——你分不清哪个在起作用，出了问题也不知道该调哪个。

标签：Tensorflow