如何评估 NLP 模型的性能？ - 面试题

NLP 模型评估是一个复杂的过程，需要根据任务类型选择合适的评估指标和方法。以下是各类 NLP 任务的评估方法。

文本分类任务

常用指标

1. 准确率（Accuracy）

正确预测的样本数 / 总样本数
适用于类别平衡的数据集
公式：Accuracy = (TP + TN) / (TP + TN + FP + FN)

2. 精确率（Precision）

预测为正例中真正为正例的比例
关注预测的准确性
公式：Precision = TP / (TP + FP)

3. 召回率（Recall）

实际正例中被正确预测的比例
关注查全率
公式：Recall = TP / (TP + FN)

4. F1 分数

精确率和召回率的调和平均
平衡两者的重要指标
公式：F1 = 2 × (Precision × Recall) / (Precision + Recall)

5. 宏平均和微平均

宏平均：各类别指标的简单平均
微平均：所有样本的总体指标
多类别分类中常用

实践建议

类别不平衡时，优先考虑 F1 分数
使用混淆矩阵分析错误类型
考虑业务需求选择合适的指标

命名实体识别（NER）

评估方法

1. 基于实体的评估

精确率：正确识别的实体数 / 识别出的实体总数
召回率：正确识别的实体数 / 实际实体总数
F1 分数：精确率和召回率的调和平均

2. 基于词的评估

逐词评估是否正确标注
严格匹配：实体边界和类型都必须正确
宽松匹配：只要类型正确即可

3. 常用工具

CoNLL 评估脚本
seqeval 库
spaCy 的评估工具

实践建议

区分实体类型评估
关注边界错误和类型错误
使用混淆矩阵分析错误模式

机器翻译

自动评估指标

1. BLEU（Bilingual Evaluation Understudy）

基于 n-gram 的匹配度
范围：0-1，越高越好
考虑精确率和简洁性惩罚
公式：BLEU = BP × exp(∑w_n log p_n)

2. ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

主要用于摘要评估
ROUGE-N：基于 n-gram 的召回率
ROUGE-L：基于最长公共子序列

3. METEOR

考虑同义词和词形变化
平衡精确率和召回率
比 BLEU 更接近人工评估

4. TER（Translation Error Rate）

翻译错误率
越低越好
计算编辑距离

人工评估

流畅性：译文是否自然流畅
充分性：是否完整传达原文意思
语法正确性：是否符合目标语言语法
语义一致性：是否保持原文语义

文本摘要

评估指标

1. ROUGE 指标

ROUGE-1：单词级别的召回率
ROUGE-2：双词组合的召回率
ROUGE-L：最长公共子序列
ROUGE-S：基于跳跃双元组

2. 内容覆盖度

关键信息是否包含
信息完整性
事实准确性

3. 流畅性和连贯性

语句是否通顺
逻辑是否连贯
语法是否正确

实践建议

结合自动评估和人工评估
关注摘要长度和压缩比
考虑领域特定指标

问答系统

抽取式问答

1. 精确匹配（Exact Match, EM）

答案完全匹配
严格指标
公式：EM = 完全正确答案数 / 总问题数

2. F1 分数

基于词级别的 F1
允许部分正确
更宽松的评估

3. 位置准确率

答案起始位置是否正确
答案结束位置是否正确

生成式问答

1. BLEU/ROUGE

评估答案质量
与参考答案的相似度

2. 语义相似度

使用嵌入模型计算相似度
BERTScore、MoverScore 等

3. 人工评估

答案相关性
答案准确性
答案完整性

情感分析

评估指标

1. 分类指标

准确率、精确率、召回率、F1
混淆矩阵
ROC 曲线和 AUC

2. 细粒度评估

极性分类（正/负/中性）
强度分类（强烈/中等/微弱）
情感类别（快乐、悲伤、愤怒等）

3. 领域适应性

跨领域性能
领域迁移能力

语言模型

困惑度（Perplexity）

定义

衡量模型预测能力的指标
越低越好
公式：PP(W) = exp(-1/N ∑log P(w_i|context))

计算方法

基于测试集计算
考虑上下文窗口
对数概率的负平均指数

局限性

不直接反映下游任务性能
对模型大小敏感
需要大量测试数据

其他指标

词错误率（WER）
字符错误率（CER）
BLEU（生成任务）

评估实践

数据划分

训练集、验证集、测试集
确保数据分布一致
考虑时间序列数据的划分

交叉验证

K 折交叉验证
分层交叉验证
时间序列交叉验证

统计显著性检验

t 检验
Wilcoxon 符号秩检验
Bootstrap 方法

错误分析

定性分析错误案例
分类错误类型
识别模型弱点

评估工具和库

Python 库

scikit-learn: 分类指标
nltk: BLEU、ROUGE
sacrebleu: 标准化 BLEU 计算
rouge-score: ROUGE 指标
seqeval: 序列标注评估

在线评估平台

GLUE: 通用语言理解评估
SuperGLUE: 更具挑战性的评估基准
SQuAD: 问答系统评估
WMT: 机器翻译评估

最佳实践

1. 选择合适的指标

根据任务类型选择
考虑业务需求
平衡多个指标

2. 结合自动和人工评估

自动评估快速但有限
人工评估准确但成本高
两者结合效果最佳

3. 关注泛化能力

在多个数据集上评估
跨领域测试
对抗性测试

4. 可复现性

固定随机种子
记录评估配置
公开评估代码和数据

5. 持续监控

生产环境监控
数据漂移检测
性能退化预警