大语言模型（LLM）是什么？为什么它能做这么多事？

Question

Levenx · Accepted Answer

大语言模型（Large Language Model，LLM）是用海量文本训练的超大规模神经网络。它不是被编程去"做"某件事，而是通过预测下一个 token 学会了语言的规律——结果出乎意料地，这种能力泛化到了推理、翻译、写代码、做总结等各种任务上。LLM 和传统 NLP 模型有什么本质区别传统 NLP 是"一个模型做一件事"——分类模型做分类，NER 模型做实体识别，翻译模型做翻译。LLM 打破了这个限制：同一个模型，通过不同的提示词（prompt），就能完成几十种任务。这种能力叫涌现能力——模型小的时候没有，参数过了某个阈值突然就出现了。关键在于规模效应。GPT-3 有 1750 亿参数，训练数据覆盖了互联网上几乎所有的公开文本。当你给它一个 prompt，它不是在"查表"找答案，而是在学到的语言分布上做推理。这么说不太精确，但你可以理解为：它把训练数据里的模式压缩成了参数，然后根据 prompt 激活相关的模式来生成回答。核心技术：从 Transformer 到 RLHFLLM 的底层架构是 Transformer，2017 年 Google 在《Attention is All

大语言模型（LLM）是什么？为什么它能做这么多事？

LLM 和传统 NLP 模型有什么本质区别

核心技术：从 Transformer 到 RLHF

LLM 能做什么

LLM 的局限

开源和闭源的格局