NLP 文本预处理有哪些步骤？LLM 时代还需要吗？

Question

Levenx · Accepted Answer

文本预处理是把原始文本变成模型能消化的输入的过程。传统 NLP 流程里这一步极其重要——垃圾进垃圾出，预处理做不好，模型再强也没用。但 LLM 时代有些变化，后面会说。预处理的核心步骤按顺序走：1. 清洗噪声：去掉 HTML 标签、URL、特殊符号、多余空格。爬虫抓的文本必做这步。用 BeautifulSoup 去 HTML 标签，正则去 URL（re.sub(r"http\S+", "", text)），没什么技术含量但很重要。2. 文本标准化：统一大小写（英文）、统一编码（UTF-8）、繁简转换（中文）。注意英文小写化会丢失一些信息——"US" 变成 "us" 就不是国家了。如果做 NER，这一步要慎重。3. 分词：把句子切成词或子词。英文按空格切就行（粗略说），中文必须用分词工具（jieba、pkuseg）。但更现代的做法是用子词分词（BPE、WordPiece），BERT 和 GPT 都用这种方式——它解决了 OOV（词表外词）问题，"unhappiness" 会被拆成 "un" + "happi" + "ness"。4. 去停用词：移除"的""了""is""the"这些高频但

NLP 文本预处理有哪些步骤？LLM 时代还需要吗？

预处理的核心步骤

LLM 时代，哪些预处理还需要？

中文预处理的特殊问题

实操建议