RNN、LSTM 和 GRU 有什么区别？怎么选？

Question

Levenx · Accepted Answer

RNN 是处理序列数据的基础架构：每一步把当前输入和上一步的隐藏状态拼在一起做变换，输出新的隐藏状态。问题是反向传播时梯度要乘很多次权重矩阵，序列一长梯度就指数级衰减（梯度消失）或爆炸——这就是 RNN 记不住远距离依赖的根本原因。LSTM 通过引入细胞状态和三个门来解决这个问题：遗忘门决定忘掉什么，输入门决定存什么，输出门决定输出什么。关键在于细胞状态的更新是加法而非乘法：C_t = f_t ⊙ C_{t-1} + i_t ⊙ C̃_t，加法让梯度可以无损地回传，不会逐层衰减。GRU 是 LSTM 的简化版，把遗忘门和输入门合成一个更新门 z_t，还省掉了细胞状态，直接在隐藏状态上做插值：h_t = (1-z_t) ⊙ h_{t-1} + z_t ⊙ h̃_t。参数少约 30%，训练更快，多数任务上效果和 LSTM 持平。一个直觉：LSTM 的 f_t ≈ 1, i_t ≈ 0 时细胞状态原样传递——这就是"记忆"。GRU 的 z_t ≈ 0 时隐藏状态原样保留——异曲同工。# PyTorch 中三者用法几乎一致nn.LSTM(input_size, hidden_size, num

RNN、LSTM 和 GRU 有什么区别？怎么选？

追问

为什么 LSTM 能解决梯度消失而 RNN 不能？

GRU 和 LSTM 怎么选？

RNN 系列和 Transformer 的核心区别是什么？

双向 LSTM 和单向有什么区别？