什么是 RNN、LSTM 和 GRU，它们有什么区别？

RNN（循环神经网络）、LSTM（长短期记忆网络）和 GRU（门控循环单元）是处理序列数据的三种重要神经网络架构。它们在 NLP 任务中广泛应用，各有特点和适用场景。

RNN（循环神经网络）

基本原理

处理序列数据的基础架构
通过隐藏状态传递信息
每个时间步的输出依赖于当前输入和前一隐藏状态

前向传播

shell
h_t = tanh(W_hh · h_{t-1} + W_xh · x_t + b_h)
y_t = W_hy · h_t + b_y

优点

结构简单，易于理解
参数相对较少
适合处理变长序列
理论上可以捕捉任意长度的依赖

缺点

梯度消失：长序列中梯度逐渐衰减
梯度爆炸：梯度在反向传播中无限增大
无法有效捕捉长距离依赖
训练困难，收敛慢
无法并行计算

应用场景

短文本分类
简单序列标注
时间序列预测

LSTM（长短期记忆网络）

基本原理

解决 RNN 的梯度消失问题
引入门控机制控制信息流
可以长期记忆重要信息

核心组件

1. 遗忘门（Forget Gate）

决定丢弃哪些信息
公式：f_t = σ(W_f · [h_, x_t] + b_f)

2. 输入门（Input Gate）

决定存储哪些新信息
公式：i_t = σ(W_i · [h_, x_t] + b_i)

3. 候选记忆单元

生成候选值
公式：C̃_t = tanh(W_C · [h_, x_t] + b_C)

4. 记忆单元更新

更新细胞状态
公式：C_t = f_t ⊙ C_ + i_t ⊙ C̃_t

5. 输出门（Output Gate）

决定输出哪些信息
公式：o_t = σ(W_o · [h_, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)

优点

有效解决梯度消失问题
能够捕捉长距离依赖
门控机制灵活控制信息流
在长序列任务上表现优异

缺点

参数量大（是 RNN 的 4 倍）
计算复杂度高
训练时间长
仍然无法并行计算

应用场景

机器翻译
文本摘要
长文本分类
语音识别

GRU（门控循环单元）

基本原理

LSTM 的简化版本
减少门控数量
保持长距离依赖能力

核心组件

1. 重置门（Reset Gate）

控制前一隐藏状态的影响
公式：r_t = σ(W_r · [h_, x_t] + b_r)

2. 更新门（Update Gate）

控制信息更新
公式：z_t = σ(W_z · [h_, x_t] + b_z)

3. 候选隐藏状态

生成候选值
公式：h̃_t = tanh(W_h · [r_t ⊙ h_, x_t] + b_h)

4. 隐藏状态更新

更新隐藏状态
公式：h_t = (1 - z_t) ⊙ h_ + z_t ⊙ h̃_t

优点

参数量比 LSTM 少（约少 30%）
计算效率更高
训练速度更快
在某些任务上性能与 LSTM 相当

缺点

表达能力略低于 LSTM
在非常长的序列上可能不如 LSTM
理论理解相对较少

应用场景

实时应用
资源受限环境
中等长度序列任务

三者对比

参数量对比

RNN：最少
GRU：中等（比 RNN 多约 2 倍）
LSTM：最多（比 RNN 多约 4 倍）

计算复杂度

RNN：O(1) 每时间步
GRU：O(1) 每时间步，但常数更大
LSTM：O(1) 每时间步，常数最大

长距离依赖

RNN：差（梯度消失）
GRU：好
LSTM：最好

训练速度

RNN：快（但可能不收敛）
GRU：快
LSTM：慢

并行化能力

三者都无法并行化（必须按时间顺序计算）
这是与 Transformer 的主要区别

选择建议

选择 RNN 的情况

序列很短（< 10 个时间步）
计算资源极其有限
需要快速原型开发
任务简单，不需要长距离依赖

选择 LSTM 的情况

序列很长（> 100 个时间步）
需要精确捕捉长距离依赖
计算资源充足
任务复杂，如机器翻译

选择 GRU 的情况

序列中等长度（10-100 个时间步）
需要平衡性能和效率
计算资源有限
实时应用

实践技巧

1. 初始化

使用合适的初始化方法
Xavier/Glorot 初始化
He 初始化

2. 正则化

Dropout（在循环层上）
梯度裁剪（防止梯度爆炸）
L2 正则化

3. 优化

使用 Adam 或 RMSprop 优化器
学习率调度
梯度裁剪阈值

4. 架构设计

双向 RNN/LSTM/GRU
多层堆叠
注意力机制结合

与 Transformer 的对比

Transformer 的优势

完全并行化
更好的长距离依赖
更强的表达能力
更容易扩展

RNN 系列的优势

参数效率更高
对小数据集更友好
推理时内存占用更小
更适合流式处理

选择建议

大数据集 + 大计算资源：Transformer
小数据集 + 有限资源：RNN 系列
实时流式处理：RNN 系列
离线批处理：Transformer

代码示例

LSTM 实现（PyTorch）

python
import torch.nn as nn

class LSTMModel(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_layers):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, num_layers, 
                           batch_first=True)
        self.fc = nn.Linear(hidden_dim, 2)
    
    def forward(self, x):
        x = self.embedding(x)
        output, (h_n, c_n) = self.lstm(x)
        return self.fc(h_n[-1])

GRU 实现（PyTorch）

python
class GRUModel(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_layers):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.gru = nn.GRU(embed_dim, hidden_dim, num_layers,
                         batch_first=True)
        self.fc = nn.Linear(hidden_dim, 2)
    
    def forward(self, x):
        x = self.embedding(x)
        output, h_n = self.gru(x)
        return self.fc(h_n[-1])

总结

RNN：基础架构，适合短序列
LSTM：强大但复杂，适合长序列
GRU：LSTM 的简化版，平衡性能和效率
Transformer：现代标准，适合大规模任务

选择哪种架构取决于任务需求、数据规模和计算资源。在实际应用中，建议从简单模型开始，逐步尝试更复杂的架构。

RNN（循环神经网络）

基本原理

前向传播

优点

缺点

应用场景

LSTM（长短期记忆网络）

基本原理

核心组件

优点

缺点

应用场景

GRU（门控循环单元）

基本原理

核心组件

优点

缺点

应用场景

三者对比

参数量对比

计算复杂度

长距离依赖

训练速度

并行化能力

选择建议

选择 RNN 的情况

选择 LSTM 的情况

选择 GRU 的情况

实践技巧

1. 初始化

2. 正则化

3. 优化

4. 架构设计

与 Transformer 的对比

Transformer 的优势

RNN 系列的优势

选择建议

最新发展

1. 改进的 RNN 架构

2. 混合架构

3. 高效变体

代码示例

LSTM 实现（PyTorch）

GRU 实现（PyTorch）

总结