LSTM | 减三和弦

是啥？ RNN 就像一个有短期记忆的学习者，它能记住最近的信息，但时间越长，记忆越模糊。通俗来说，RNN（循环神经网络）可以类比成一个有记忆的“学习者”。假设这个学习者在读一篇文章，他每读完一个词就会暂时记住这个词的意思，再去读下一个词。在传统神经网络中，每次处理的输入都是独立的（像每次都从零开始阅读），但在RNN中，它会“记住”之前的信息（之前的词），并将这些记忆传递给下一步处理，让整个句子有上下文的联系。但是，RNN 有一个非常明显的问题：短期记忆强，长期记忆弱。就像你记得刚刚读到的几个词，但越往前回忆，记忆就会越来越模糊。这种现象在处理长文本或长序列时尤为明显，它“记住”早期信息的能力会随着时间推移迅速衰减，这被称为梯度消失问题。那 LSTM（长短期记忆网络）为 RNN 解决了什么问题呢？可以想象 LSTM 是一个“有着更加聪明记忆能力的学习者”。它不仅仅像 RNN 那样简单地记住最近的信息，还学会了如何挑选重要的记忆保留下来，并抛弃不重要的内容。LSTM 通过 “遗忘门”和“记忆门” 等机制，决定哪些信息应该忘掉，哪些应该长期记住，从而解决了 RNN 无法很好地记住长时间信息的问题。举个例子：想象你在读一本小说，刚开始时提到的某个人物情节对故事发展很关键，但过了一段时间你可能就不需要记住每个不重要的细节了。LSTM 就好比你的大脑，它有能力判断哪些信息应该记住很久（比如关键的主线人物）而哪些可以随时忘记（比如不重要的细节）。这样它就可以更好地处理那些时间跨度较大的信息，而不会像 RNN 那样迅速遗忘。一些细节 1. RNN 的技术细节 RNN 的核心在于它的“循环”，即网络的输出不仅依赖于当前输入，还依赖于上一时刻的隐藏状态。这是它“记忆”的来源。数学表达：在 RNN 中，隐藏状态 \( h_t \) 是通过当前输入 \( x_t \) 和前一个时刻的隐藏状态 \( h_{t-1} \) 共同计算的： \[ h_t = \tanh(W_h h_{t-1} + W_x x_t + b) \] \( W_h \) 是连接隐藏状态的权重矩阵（负责记住过去的信息）。 \( W_x \) 是输入层的权重矩阵（负责处理当前输入）。 \( \tanh \) 是激活函数（可以替换为其他如 ReLU，但常用的是 \( \tanh \)）。 \( b \) 是偏置项。 RNN 的梯度消失问题在训练 RNN 的过程中，我们会使用反向传播算法来更新权重。在长序列中，隐藏状态 \( h_t \) 会不断地被传递下去。这意味着，越早的输入对当前状态的影响需要经过多次链式计算。随着序列长度增加，隐藏状态的梯度会逐渐接近于零，这就是梯度消失。...