6月1日 15:01

大语言模型(LLM)是什么?为什么它能做这么多事?

大语言模型(Large Language Model,LLM)是用海量文本训练的超大规模神经网络。它不是被编程去"做"某件事,而是通过预测下一个 token 学会了语言的规律——结果出乎意料地,这种能力泛化到了推理、翻译、写代码、做总结等各种任务上。

LLM 和传统 NLP 模型有什么本质区别

传统 NLP 是"一个模型做一件事"——分类模型做分类,NER 模型做实体识别,翻译模型做翻译。LLM 打破了这个限制:同一个模型,通过不同的提示词(prompt),就能完成几十种任务。这种能力叫涌现能力——模型小的时候没有,参数过了某个阈值突然就出现了。

关键在于规模效应。GPT-3 有 1750 亿参数,训练数据覆盖了互联网上几乎所有的公开文本。当你给它一个 prompt,它不是在"查表"找答案,而是在学到的语言分布上做推理。这么说不太精确,但你可以理解为:它把训练数据里的模式压缩成了参数,然后根据 prompt 激活相关的模式来生成回答。

核心技术:从 Transformer 到 RLHF

LLM 的底层架构是 Transformer,2017 年 Google 在《Attention is All You Need》里提出。Transformer 的自注意力机制让模型能同时看到输入序列的所有位置,不需要像 RNN 那样逐步递归,训练时可以完全并行。

但光有 Transformer 不够。从原始模型到好用的 ChatGPT,中间经历了三个关键步骤:

  1. 预训练:在海量文本上做 next-token prediction,学会语言的基本规律。这步烧钱最多,GPT-4 的训练成本估计超过 1 亿美元。
  2. 指令微调(SFT):用人工编写的指令-回答对微调,教模型"用户问问题你要这样答"。原始预训练模型只会续写,不会对话——SFT 让它变成了助手。
  3. RLHF:用人类偏好数据训练一个奖励模型,再用 PPO 算法优化语言模型。这一步让模型的回答更符合人类期望——更安全、更礼貌、更拒绝有害请求。

LLM 能做什么

理解和分析文本:读论文写摘要、从合同中提取关键条款、判断用户评论的情感倾向。这类任务 LLM 已经接近人类水平。

生成内容:写邮件、写文案、写代码。代码生成是 LLM 落地最成功的场景之一——GitHub Copilot 用了 GPT 的代码能力,让开发者的编码效率提升了 30-50%。

推理:链式思考(Chain-of-Thought)让 LLM 能做数学题、逻辑推理。2024 年 OpenAI 的 o1/o3 模型专门强化了推理能力,在数学和编程竞赛上接近人类顶尖水平。

多模态:GPT-4V、Claude、Gemini 已经能看图、看视频、听语音。这不是简单的"图文拼接",而是模型真正理解了视觉内容和文字内容之间的语义关系。

Agent:LLM 不只是回答问题,还能调用工具、执行任务、规划步骤。这是 2024-2025 最热的方向——让 LLM 成为能自主行动的智能体,而不是被动的问答机器。

LLM 的局限

幻觉(hallucination)是最头疼的问题——模型会自信地编造不存在的事实。上下文窗口有限(虽然已经从 4K 扩展到了 128K 甚至 1M),长文档处理仍有挑战。推理成本高,每次 API 调用都在烧钱。对小公司来说,部署自己的 LLM 仍然不现实——7B 模型需要至少 16GB 显存,70B 需要 4 张 A100。

开源和闭源的格局

闭源阵营:GPT-4o、Claude、Gemini 代表了最强性能。开源阵营:LLaMA(Meta)、Mistral、Qwen(阿里)、DeepSeek 追赶速度惊人。2025 年,开源 7B 模型的能力已经接近 GPT-3.5 水平,70B 模型在某些任务上和 GPT-4 打平。对开发者来说,开源模型意味着你可以私有化部署、定制微调、不用担心数据泄露。

标签:NLPLLM