6月1日 23:20

NLP(自然语言处理)是什么?核心技术从规则到 LLM 怎么演变的?

自然语言处理(Natural Language Processing,NLP)是让计算机理解、解释和生成人类语言的技术。你用的搜索引擎、翻译软件、智能客服、ChatGPT,背后都是 NLP。

NLP 解决什么问题

NLP 的任务可以分两大类:理解(从文本中提取信息)和生成(产出新的文本)。

理解类任务:文本分类(这封邮件是不是垃圾邮件)、命名实体识别(提取人名地名)、情感分析(这条评论是正面还是负面)、问答(从文档中找到答案)。这类任务的核心是把非结构化的文本变成结构化的信息。

生成类任务:机器翻译、文本摘要、对话生成、代码生成。这类任务不仅要理解输入,还要产出流畅、连贯、准确的新文本。生成比理解难得多——理解只需要判断对错,生成要在一个天文数字的候选空间里选出最好的。

NLP 技术的三个时代

规则时代(1950s-1990s):手写语法规则和词典。专家系统写几千条 if-else 规则来解析句子。准确率在小领域内还行,但覆盖面极窄——换个领域规则全废,维护成本爆炸。

统计机器学习时代(1990s-2012):从数据中自动学习规律。HMM 做词性标注,CRF 做序列标注,SVM 做分类。关键突破是特征表示——词袋模型、TF-IDF、N-gram 把文本变成了数值向量。但特征仍然需要人工设计,模型能力的天花板就是特征工程的质量。

深度学习时代(2013-至今):神经网络自动学特征,不需要手工设计。Word2Vec 让词有了语义向量表示("国王" - "男人" + "女人" ≈ "女王"),RNN/LSTM 处理变长序列,CNN 做文本分类。2017 年 Transformer 出现后,NLP 的范式彻底变了——BERT、GPT 用预训练+微调替代了从零训模型,LLM 用提示词替代了微调本身。

NLP 的核心 Pipeline

传统 NLP 系统的典型流程:文本 → 预处理(清洗、分词)→ 特征提取(词向量、句向量)→ 模型推理 → 后处理。每一步都需要单独优化,错误会在步骤间传播——分词错了,下游全错。

LLM 时代 Pipeline 大幅简化:文本 → tokenizer → LLM 推理 → 输出。分词、特征提取、模型推理都压缩进了一个端到端的过程。代价是计算成本更高,但换来的是更少的手工环节和更好的效果。

中文 NLP 的特殊挑战

中文没有空格分隔词语,分词是所有下游任务的前提。jieba 是最常用的分词工具,但准确率约 90%,专业领域需要自定义词典。另一个问题是中文的指代消解——"他"指谁?"这家公司"指哪家?英文有性别代词做线索,中文的"他/她/它"发音相同,歧义更多。

NLP 当前最热的方向

RAG(检索增强生成):让 LLM 先检索外部知识库再生成回答,解决幻觉问题。Agent:让 LLM 调用工具、规划步骤、自主执行任务。多模态:同时处理文本、图像、语音。小模型蒸馏:把大模型的能力压缩到小模型里,降低部署成本。这些方向都建立在 Transformer 和 LLM 的基础上——理解了底层原理,上面的应用方向只是组合方式不同。

标签:NLP