如何构建一个 NLP 系统？从数据到部署的完整流程

Question

Levenx · Accepted Answer

构建 NLP 系统不只是训模型——从数据收集到线上服务，中间有大量工程决策要做。模型只是系统的一部分，很多时候瓶颈不在模型效果，而在数据处理、服务稳定性和迭代速度上。明确任务和指标先想清楚三件事：系统要解决什么问题？怎么衡量效果？兜底策略是什么？比如做一个客服意图分类系统：目标是自动识别用户咨询的类别（退款、物流、产品问题等），指标是 F1 值和人工介入率，兜底是置信度低于阈值就转人工。不要上来就想用最先进的模型，先把任务定义清楚。数据工程数据是 NLP 系统的地基，也是最容易出问题的地方。数据收集：业务日志、用户生成内容、公开数据集。优先用业务数据——它最贴近真实场景。公开数据集可以做冷启动，但分布往往和线上不一致，上线后效果会打折。数据标注：标注质量直接决定模型上限。找领域专家标注，别找众包工人——一个律师标的法律文本和一个大学生标的，质量天差地别。标注指南要写清楚边界案例（"苹果"在什么语境下是公司，什么语境下是水果），标注一致性（多人标同一批数据的重合度）至少要 85% 以上。数据版本管理：每次训练用的数据集要能追溯。DVC 或简单的 git + 文件哈希都行。线上出了问题，你

如何构建一个 NLP 系统？从数据到部署的完整流程

明确任务和指标

数据工程

模型开发

服务化部署

监控和迭代