如何进行 NLP 模型的微调？ - 面试题

NLP 模型微调是将预训练模型适配到特定任务的关键技术。通过微调，可以利用预训练模型学到的通用知识，在目标任务上获得更好的性能。

微调的基本概念

定义

在预训练模型基础上进行训练
使用目标任务的小规模数据集
调整模型参数以适应特定任务

优势

减少训练数据需求
加快收敛速度
提升模型性能
降低计算成本

微调策略

1. 全参数微调

方法

解冻所有模型参数
在目标任务数据上训练
学习率通常较小

优点

充分利用预训练知识
适应性强
性能通常最好

缺点

计算成本高
需要大量显存
可能过拟合

适用场景

大规模目标任务数据
计算资源充足
追求最佳性能

2. 部分层微调

方法

只解冻部分层（通常是顶层）
冻结底层参数
顶层使用较小学习率

优点

减少计算量
降低过拟合风险
保留底层通用特征

缺点

性能可能略低于全参数微调
需要选择合适的层数

适用场景

中等规模数据
有限计算资源
任务与预训练任务相似

3. 参数高效微调（PEFT）

LoRA（Low-Rank Adaptation）

在权重矩阵上添加低秩分解
只训练低秩矩阵
大幅减少可训练参数

Adapter

在层间插入小型适配器模块
只训练适配器参数
保持原模型参数不变

Prefix Tuning

在输入前添加可训练的前缀
只优化前缀向量
适用于生成任务

Prompt Tuning

类似 Prefix Tuning
更简单的前缀表示
适用于大语言模型

优点

极大减少可训练参数
降低存储需求
快速切换任务

缺点

性能可能略低于全参数微调
实现相对复杂

4. 指令微调

方法

使用指令-响应对训练
提升模型遵循指令能力
适用于对话和生成任务

数据格式

shell
指令：请将以下句子翻译成英文
输入：自然语言处理很有趣
输出：Natural Language Processing is interesting

优点

提升模型通用性
改善零样本能力
适合交互式应用

微调流程

1. 数据准备

数据收集

收集目标任务数据
确保数据质量
标注数据（如需要）

数据预处理

文本清洗
分词
格式转换
数据增强（可选）

数据划分

训练集、验证集、测试集
分层采样（类别不平衡时）
保持数据分布一致

2. 模型选择

选择预训练模型

BERT 系列：理解类任务
GPT 系列：生成类任务
T5：文本到文本任务
RoBERTa：优化版 BERT
领域特定模型：如 BioBERT、SciBERT

考虑因素

任务类型
数据规模
计算资源
性能要求

3. 微调配置

学习率

通常比预训练学习率小 10-100 倍
常用范围：1e-5 到 5e-5
使用学习率调度器

批量大小

根据显存调整
常用范围：8-32
梯度累积（显存不足时）

训练轮数

通常 3-10 轮
早停策略防止过拟合
监控验证集性能

优化器

AdamW：常用选择
Adam：经典优化器
SGD：可能泛化更好

正则化

Dropout：0.1-0.3
权重衰减：0.01
标签平滑：0.1

4. 训练过程

训练步骤

加载预训练模型
准备数据加载器
设置优化器和调度器
训练循环
验证和早停
保存最佳模型

监控指标

训练损失
验证损失
任务特定指标（准确率、F1 等）
梯度范数

5. 评估和优化

评估方法

在测试集上评估
交叉验证
消融实验

优化方向

超参数调优
数据增强
模型集成
后处理

实践技巧

1. 学习率策略

学习率预热（Warm-up）

前几个 epoch 使用较小学习率
逐步增加到目标学习率
防止模型不稳定

余弦退火（Cosine Annealing）

学习率按余弦函数衰减
帮助模型跳出局部最优
提升最终性能

线性衰减

学习率线性递减
简单有效
适用于大多数情况

2. 批量大小调整

显存不足时

减小批量大小
使用梯度累积
混合精度训练

大批量训练

可能需要调整学习率
线性缩放规则
可能影响泛化能力

3. 数据增强

文本增强方法

同义词替换
随机删除
随机交换
回译

增强策略

仅在训练时使用
保持语义一致性
避免过度增强

4. 多任务学习

方法

同时微调多个相关任务
共享底层参数
任务特定顶层

优点

提升泛化能力
减少过拟合
利用任务间关系

常见问题及解决方案

1. 过拟合

症状

训练损失持续下降
验证损失开始上升
测试性能差

解决方案

增加数据量
使用数据增强
增加正则化
早停策略
减小模型规模

2. 欠拟合

症状

训练和验证损失都很高
模型性能差

解决方案

增加训练轮数
提高学习率
减小正则化
增加模型容量

3. 不稳定训练

症状

损失震荡
梯度爆炸/消失

解决方案

梯度裁剪
降低学习率
使用学习率预热
检查数据质量

4. 显存不足

解决方案

减小批量大小
使用梯度累积
混合精度训练
使用 PEFT 方法
使用更小的模型

工具和框架

1. Hugging Face Transformers

特点

丰富的预训练模型
简单的 API
支持 PEFT 方法
活跃的社区

示例代码

python
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
    learning_rate=2e-5,
    evaluation_strategy="epoch",
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

trainer.train()

2. PEFT 库

支持的 PEFT 方法

LoRA
Prefix Tuning
Prompt Tuning
Adapter

示例代码

python
from peft import get_peft_model, LoraConfig, TaskType

peft_config = LoraConfig(
    task_type=TaskType.SEQ_CLS,
    inference_mode=False,
    r=8,
    lora_alpha=32,
    lora_dropout=0.1
)

model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

3. 其他框架

PyTorch Lightning：简化训练流程
Fairseq：序列到序列任务
spaCy：工业级 NLP

最佳实践

1. 从小开始

先用小数据集验证流程
逐步增加数据规模
快速迭代

2. 充分利用预训练

选择合适的预训练模型
了解预训练任务
考虑领域适配

3. 系统性调优

控制变量实验
记录所有配置
使用实验跟踪工具

4. 评估和迭代

多维度评估
错误分析
持续改进

案例研究

案例 1：文本分类

任务：情感分析
模型：BERT-base
数据：10k 样本
方法：全参数微调
结果：F1 从 0.75 提升到 0.92

案例 2：命名实体识别

任务：医疗 NER
模型：BioBERT
数据：5k 样本
方法：LoRA 微调
结果：参数减少 95%，性能相当

案例 3：对话生成

任务：客服对话
模型：GPT-2
数据：100k 对话
方法：指令微调
结果：提升对话质量和相关性