NLP 模型评估指标怎么选？分类、生成、翻译指标详解

Question

Levenx · Accepted Answer

NLP 评估的核心原则：指标必须和业务目标对齐。垃圾邮件检测最怕漏判（看召回率），医疗文本分类最怕误判（看精确率），机器翻译要看流畅度也要看忠实度——同一个 F1 分数在不同场景下含义完全不同。按任务类型选择指标的速查表：| 任务 | 核心指标 | 辅助指标 ||------|----------|----------|| 文本分类 | F1（不平衡时）、Accuracy（平衡时） | 混淆矩阵、AUC-ROC || 命名实体识别 | 实体级 F1（严格匹配） | 宽松匹配 F1、按实体类型分别看 || 机器翻译 | BLEU | COMET、人工评估 || 文本摘要 | ROUGE-L | 事实一致性、人工评估 || 问答 | EM + F1 | BERTScore || 生成式 | 人工评估为主 | LLM-as-Judge、BERTScore |分类指标：精确率、召回率、F1 怎么选精确率（Precision）= 模型预测为正的有多少真的是正。召回率（Recall）= 真正的正例有多少被模型找到了。F1 是两者的调和平均，偏向更低的那个——精确率 0.9 但召回率 0.3，F1

NLP 模型评估指标怎么选？分类、生成、翻译指标详解

分类指标：精确率、召回率、F1 怎么选

生成任务指标：BLEU 和 ROUGE 的局限

语言模型的困惑度

实操建议

任务	核心指标	辅助指标
文本分类	F1（不平衡时）、Accuracy（平衡时）	混淆矩阵、AUC-ROC
命名实体识别	实体级 F1（严格匹配）	宽松匹配 F1、按实体类型分别看
机器翻译	BLEU	COMET、人工评估
文本摘要	ROUGE-L	事实一致性、人工评估
问答	EM + F1	BERTScore
生成式	人工评估为主	LLM-as-Judge、BERTScore