NLP 词向量有哪些方法？Word2Vec、GloVe 到 BERT 演进详解

Question

Levenx · Accepted Answer

词向量就是把词映射成一段连续的实数向量（通常 50-300 维），让语义相近的词在向量空间中距离也近。计算机不认识"苹果"和"橘子"，但它们对应的向量夹角很小——"苹果"和"汽车"的向量夹角大。这个"距离近=语义近"的性质，是一切下游 NLP 任务的基础。词向量方法经历了三代演进：静态词向量（每个词固定一个向量）→ 上下文词向量（同一个词在不同语境中有不同向量）→ 大模型嵌入（深层语义表示）。静态词向量：Word2Vec / GloVe / FastTextWord2Vec（2013）的核心思想：上下文相似的词，语义也相似。两种训练方式——CBOW 用上下文预测中心词（快，适合常用词），Skip-gram 用中心词预测上下文（慢，但稀有词效果更好）。训练出的向量支持类比运算：king - man + woman ≈ queen。GloVe（2014）换了个思路：不靠上下文窗口，而是利用全局的词-词共现矩阵。最小化 w_i · w_j + b_i + b_j - log(X_ij) 的差距，本质上是对共现矩阵做分解。在大规模语料上比 Word2Vec 更稳。FastText（2016）在

NLP 词向量有哪些方法？Word2Vec、GloVe 到 BERT 演进详解

静态词向量：Word2Vec / GloVe / FastText

上下文词向量：ELMo → BERT

现代方向：句子嵌入和大模型

追问

Word2Vec 和 GloVe 怎么选？

静态词向量还有用吗？