NLP 模型微调实战：LoRA、QLoRA 和 PEFT 方法详解

Question

Levenx · Accepted Answer

NLP 模型微调的核心思路：拿一个在大量数据上训练好的预训练模型，用你的目标任务数据继续训练它，让它从"什么都懂一点"变成"在你的领域特别擅长"。关键问题是：调多少参数、用什么策略调、怎么避免把预训练知识调没了。全参数微调 vs 参数高效微调（PEFT）全参数微调解冻所有权重，效果好但显存要求高——7B 模型全参微调至少需要 28GB 显存（Adam 优化器要存两份状态）。PEFT 冻住原始权重，只训练少量新增参数，显存降到原来的 1/3 甚至更低，效果通常能到全参的 90-95%。LoRA 是目前最主流的 PEFT 方法：在权重矩阵旁加一个低秩分解 ΔW = BA，只训练 A 和 B 两个小矩阵。比如原始权重 4096×4096，rank=8 的 LoRA 只需要 4096×8×2 = 65536 个参数，压缩比 256:1。推理时把 LoRA 权重合并回原模型，零额外延迟。from peft import LoraConfig, get_peft_modelconfig = LoraConfig(    r=8,                # 秩，越大表达能力越强但参数越多

NLP 模型微调实战：LoRA、QLoRA 和 PEFT 方法详解

全参数微调 vs 参数高效微调（PEFT）

其他 PEFT 方法怎么选

微调实操要点

QLoRA：单卡微调大模型

过拟合怎么发现和解决