如何理解 RNN ?LSTM 又是啥?
是啥? RNN 就像一个有短期记忆的学习者,它能记住最近的信息,但时间越长,记忆越模糊。 通俗来说,RNN(循环神经网络) 可以类比成一个有记忆的“学习者”。假设这个学习者在读一篇文章,他每读完一个词就会暂时记住这个词的意思,再去读下一个词。在传统神经网络中,每次处理的输入都是独立的(像每次都从零开始阅读),但在RNN中,它会“记住”之前的信息(之前的词),并将这些记忆传递给下一步处理,让整个句子有上下文的联系。 但是,RNN 有一个非常明显的问题:短期记忆强,长期记忆弱。就像你记得刚刚读到的几个词,但越往前回忆,记忆就会越来越模糊。这种现象在处理长文本或长序列时尤为明显,它“记住”早期信息的能力会随着时间推移迅速衰减,这被称为 梯度消失 问题。 那 LSTM(长短期记忆网络) 为 RNN 解决了什么问题呢? 可以想象 LSTM 是一个“有着更加聪明记忆能力的学习者”。它不仅仅像 RNN 那样简单地记住最近的信息,还学会了如何挑选重要的记忆保留下来,并抛弃不重要的内容。LSTM 通过 “遗忘门”和“记忆门” 等机制,决定哪些信息应该忘掉,哪些应该长期记住,从而解决了 RNN 无法很好地记住长时间信息的问题。 举个例子:想象你在读一本小说,刚开始时提到的某个人物情节对故事发展很关键,但过了一段时间你可能就不需要记住每个不重要的细节了。LSTM 就好比你的大脑,它有能力判断哪些信息应该记住很久(比如关键的主线人物)而哪些可以随时忘记(比如不重要的细节)。这样它就可以更好地处理那些时间跨度较大的信息,而不会像 RNN 那样迅速遗忘。 一些细节 1. RNN 的技术细节 RNN 的核心在于它的“循环”,即网络的输出不仅依赖于当前输入,还依赖于上一时刻的隐藏状态。这是它“记忆”的来源。 数学表达: 在 RNN 中,隐藏状态 \( h_t \) 是通过当前输入 \( x_t \) 和前一个时刻的隐藏状态 \( h_{t-1} \) 共同计算的: \[ h_t = \tanh(W_h h_{t-1} + W_x x_t + b) \] \( W_h \) 是连接隐藏状态的权重矩阵(负责记住过去的信息)。 \( W_x \) 是输入层的权重矩阵(负责处理当前输入)。 \( \tanh \) 是激活函数(可以替换为其他如 ReLU,但常用的是 \( \tanh \))。 \( b \) 是偏置项。 RNN 的梯度消失问题 在训练 RNN 的过程中,我们会使用反向传播算法来更新权重。在长序列中,隐藏状态 \( h_t \) 会不断地被传递下去。这意味着,越早的输入对当前状态的影响需要经过多次链式计算。随着序列长度增加,隐藏状态的梯度会逐渐接近于零,这就是梯度消失。...