入门 | 一文简述循环神经网络

2024-05-12

1. 入门 | 一文简述循环神经网络

入门 | 一文简述循环神经网络
本文简要介绍了什么是循环神经网络及其运行原理，并给出了一个 RNN 实现示例。
什么是循环神经网络（RNN）？它们如何运行？可以用在哪里呢？本文试图回答上述这些问题，还展示了一个 RNN 实现 demo，你可以根据自己的需要进行扩展。
 
循环神经网络架构
基础知识。Python、CNN 知识是必备的。了解 CNN 的相关知识，是为了与 RNN 进行对比：RNN 为什么以及在哪些地方比 CNN 更好。
我们首先从「循环」（Recurrent）这个词说起。为什么将其称为循环？循环的意思是：
经常或重复出现
将这类神经网络称为循环神经网络是因为它对一组序列输入重复进行同样的操作。本文后续部分将讨论这种操作的意义。
我们为什么需要 RNN？
也许你现在想的是，已经有像卷积网络这样表现非常出色的网络了，为什么还需要其他类型的网络呢？有一个需要用到 RNN 的特殊例子。为了解释 RNN，你首先需要了解序列的相关知识，我们先来讲一下序列。
序列是相互依赖的（有限或无限）数据流，比如时间序列数据、信息性的字符串、对话等。在对话中，一个句子可能有一个意思，但是整体的对话可能又是完全不同的意思。股市数据这样的时间序列数据也是，单个数据表示当前价格，但是全天的数据会有不一样的变化，促使我们作出买进或卖出的决定。
当输入数据具有依赖性且是序列模式时，CNN 的结果一般都不太好。CNN 的前一个输入和下一个输入之间没有任何关联。所以所有的输出都是独立的。CNN 接受输入，然后基于训练好的模型输出。如果你运行了 100 个不同的输入，它们中的任何一个输出都不会受之前输出的影响。但想一下如果是文本生成或文本翻译呢？所有生成的单词与之前生成的单词都是独立的（有些情况下与之后的单词也是独立的，这里暂不讨论）。所以你需要有一些基于之前输出的偏向。这就是需要 RNN 的地方。RNN 对之前发生在数据序列中的事是有一定记忆的。这有助于系统获取上下文。理论上讲，RNN 有无限的记忆，这意味着它们有无限回顾的能力。通过回顾可以了解所有之前的输入。但从实际操作中看，它只能回顾最后几步。
本文仅为了与人类大体相关联，而不会做任何决定。本文只是基于之前关于该项目的知识做出了自己的判断（我甚至尚未理解人类大脑的 0.1%）。
何时使用 RNN？
RNN 可用于许多不同的地方。下面是 RNN 应用最多的领域。
1. 语言建模和文本生成
给出一个词语序列，试着预测下一个词语的可能性。这在翻译任务中是很有用的，因为最有可能的句子将是可能性最高的单词组成的句子。
2. 机器翻译
将文本内容从一种语言翻译成其他语言使用了一种或几种形式的 RNN。所有日常使用的实用系统都用了某种高级版本的 RNN。
3. 语音识别
基于输入的声波预测语音片段，从而确定词语。
4. 生成图像描述
RNN 一个非常广泛的应用是理解图像中发生了什么，从而做出合理的描述。这是 CNN 和 RNN 相结合的作用。CNN 做图像分割，RNN 用分割后的数据重建描述。这种应用虽然基本，但可能性是无穷的。
5. 视频标记
可以通过一帧一帧地标记视频进行视频搜索。
深入挖掘
本文按照以下主题进行。每一部分都是基于之前的部分进行的，所以不要跳着读。
前馈网络循环网络循环神经元基于时间的反向传播（BPTT）RNN 实现
前馈网络入门
前馈网络通过在网络的每个节点上做出的一系列操作传递信息。前馈网络每次通过每个层直接向后传递信息。这与其他循环神经网络不同。一般而言，前馈网络接受一个输入并据此产生输出，这也是大多数监督学习的步骤，输出结果可能是一个分类结果。它的行为与 CNN 类似。输出可以是以猫狗等作为标签的类别。
前馈网络是基于一系列预先标注过的数据训练的。训练阶段的目的是减少前馈网络猜类别时的误差。一旦训练完成，我们就可以用训练后的权重对新批次的数据进行分类。
 
一个典型的前馈网络架构
还有一件事要注意。在前馈网络中，无论在测试阶段展示给分类器的图像是什么，都不会改变权重，所以也不会影响第二个决策。这是前馈网络和循环网络之间一个非常大的不同。
与循环网络不同，前馈网络在测试时不会记得之前的输入数据。它们始终是取决于时间点的。它们只会在训练阶段记得历史输入数据。
循环网络
也就是说，循环网络不仅将当前的输入样例作为网络输入，还将它们之前感知到的一并作为输入。
我们试着建立了一个多层感知器。从简单的角度讲，它有一个输入层、一个具备特定激活函数的隐藏层，最终可以得到输出。
 
多层感知器架构示例
如果在上述示例中的层数增加了，输入层也接收输入。那么第一个隐藏层将激活传递到下一个隐藏层上，依此类推。最后到达输出层。每一个隐藏层都有自己的权重和偏置项。现在问题变成了我们可以输入到隐藏层吗？
 
每一层都有自己的权重（W）、偏置项（B）和激活函数（F）。这些层的行为不同，合并它们从技术层面上讲也极具挑战性。为了合并它们，我们将所有层的权重和偏置项替换成相同的值。如下图所示：
 
现在我们就可以将所有层合并在一起了。所有的隐藏层都可以结合在一个循环层中。所以看起来就像下图：
 
我们在每一步都会向隐藏层提供输入。现在一个循环神经元存储了所有之前步的输入，并将这些信息和当前步的输入合并。因此，它还捕获到一些当前数据步和之前步的相关性信息。t-1 步的决策影响到第 t 步做的决策。这很像人类在生活中做决策的方式。我们将当前数据和近期数据结合起来，帮助解决手头的特定问题。这个例子很简单，但从原则上讲这与人类的决策能力是一致的。这让我非常想知道我们作为人类是否真的很智能，或者说我们是否有非常高级的神经网络模型。我们做出的决策只是对生活中收集到的数据进行训练。那么一旦有了能够在合理时间段内存储和计算数据的先进模型和系统时，是否可以数字化大脑呢？所以当我们有了比大脑更好更快的模型（基于数百万人的数据训练出的）时，会发生什么？
另一篇文章（https://deeplearning4j.org/lstm.html）的有趣观点：人总是被自己的行为所困扰。
我们用一个例子来阐述上面的解释，这个例子是预测一系列字母后的下一个字母。想象一个有 8 个字母的单词 namaskar。
namaskar（合十礼）：印度表示尊重的传统问候或姿势，将手掌合起置于面前或胸前鞠躬。
如果我们在向网络输入 7 个字母后试着找出第 8 个字母，会发生什么呢？隐藏层会经历 8 次迭代。如果展开网络的话就是一个 8 层的网络，每一层对应一个字母。所以你可以想象一个普通的神经网络被重复了多次。展开的次数与它记得多久之前的数据是直接相关的。
 
循环神经网络的运作原理
循环神经元
这里我们将更深入地了解负责决策的实际神经元。以之前提到的 namaskar 为例，在给出前 7 个字母后，试着找出第 8 个字母。输入数据的完整词汇表是 {n,a,m,s,k,r}。在真实世界中单词或句子都会更复杂。为了简化问题，我们用的是下面这个简单的词汇表。
 
在上图中，隐藏层或 RNN 块在当前输入和之前的状态中应用了公式。在本例中，namaste 的字母 n 前面什么都没有。所以我们直接使用当前信息推断，并移动到下一个字母 a。在推断字母 a 的过程中，隐藏层应用了上述公式结合当前推断 a 的信息与前面推断 n 的信息。输入在网络中传递的每一个状态都是一个时间步或一步，所以时间步 t 的输入是 a，时间步 t-1 的输入就是 n。将公式同时应用于 n 和 a 后，就得到了一个新状态。
用于当前状态的公式如下所示：
 
h_t 是新状态，h_t-1 是前一个状态。x_t 是时间 t 时的输入。在对之前的时间步应用了相同的公式后，我们已经能感知到之前的输入了。我们将检查 7 个这样的输入，它们在每一步的权重和函数都是相同的。
现在试着以简单的方式定义 f()。我们使用 tanh 激活函数。通过矩阵 W_hh 定义权重，通过矩阵 W_xh 定义输入。公式如下所示：
 
上例只将最后一步作为记忆，因此只与最后一步的数据合并。为了提升网络的记忆能力，并在记忆中保留较长的序列，我们必须在方程中添加更多的状态，如 h_t-2、h_t-3 等。最后输出可以按测试阶段的计算方式进行计算：
其中，y_t 是输出。对输出与实际输出进行对比，然后计算出误差值。网络通过反向传播误差来更新权重，进行学习。本文后续部分会对反向传播进行讨论。
基于时间的反向传播算法（BPTT）
本节默认你已经了解了反向传播概念。如果需要对反向传播进行深入了解，请参阅链接：?http://cs231n.github.io/optimization-2/?。
现在我们了解了 RNN 是如何实际运作的，但是在实际工作中如何训练 RNN 呢？该如何决定每个连接的权重呢？如何初始化这些隐藏单元的权重呢？循环网络的目的是要准确地对序列输入进行分类。这要靠误差值的反向传播和梯度下降来实现。但是前馈网络中使用的标准反向传播无法在此应用。
与有向无环的前馈网络不同，RNN 是循环图，这也是问题所在。在前馈网络中可以计算出之前层的误差导数。但 RNN 的层级排列与前馈网络并不相同。
答案就在之前讨论过的内容中。我们需要展开网络。展开网络使其看起来像前馈网络就可以了。
 
展开 RNN
在每个时间步取出 RNN 的隐藏单元并复制。时间步中的每一次复制就像前馈网络中的一层。在时间步 t+1 中每个时间步 t 层与所有可能的层连接。因此我们对权重进行随机初始化，展开网络，然后在隐藏层中通过反向传播优化权重。通过向最低层传递参数完成初始化。这些参数作为反向传播的一部分也得到了优化。
展开网络的结果是，现在每一层的权重都不同，因此最终会得到不同程度的优化。无法保证基于权重计算出的误差是相等的。所以每一次运行结束时每一层的权重都不同。这是我们绝对不希望看到的。最简单的解决办法是以某种方式将所有层的误差合并到一起。可以对误差值取平均或者求和。通过这种方式，我们可以在所有时间步中使用一层来保持相同的权重。
RNN 实现
本文试着用 Keras 模型实现 RNN。我们试着根据给定的文本预测下一个序列。
代码地址：?https://gist.github.com/09aefc5231972618d2c13ccedb0e22cc.git?
该模型是 Yash Katariya 建的。我对该模型做了一些细微的改动以适合本文的要求。

入门 | 一文简述循环神经网络

2. 如何理解循环神经网络实现预测

神经系统（nervous system）是机体内起主导作用的系统，分为中枢神经系统和周围神经系统两大部分。
神经系统是人体内起主导作用的功能调节系统。人体的结构与功能均极为复杂，体内各器官、系统的功能和各种生理过程都不是各自孤立地进行，而是在神经系统的直接或间接调节控制下，互相联系、相互影响、密切配合，使人体成为一个完整统一的有机体，实现和维持正常的生命活动。同时，人体又是生活在经常变化的环境中，神经系统能感受到外部环境的变化对体内各种功能不断进行迅速而完善的调整，使人体适应体内外环境的变化。可见，神经系统在人体生命活动中起着主导的调节作用，人类的神经系统高度发展，特别是大脑皮层不仅进化成为调节控制的最高中枢，而且进化成为能进行思维活动的器官。因此，人类不但能适应环境，还能认识和改造世界。
神经系统由中枢部分及其外周部分所组成。中枢部分包括脑和脊髓，分别位于颅腔和椎管内，两者在结构和功能上紧密联系，组成中枢神经系统。外周部分包括12对脑神经和31对脊神经，它们组成外周神经系统。外周神经分布于全身，把脑和脊髓与全身其他器官联系起来，使中枢神经系统既能感受内外环境的变化（通过传入神经传输感觉信息），又能调节体内各种功能（通过传出神经传达调节指令），以保证人体的完整统一及其对环境的适应。神经系统的基本结构和功能单位是神经元（神经细胞），而神经元的活动和信息在神经系统中的传输则表现为一定的生物电变化及其传播。例如，外周神经中的传入神经纤维把感觉信息传入中枢，传出神经纤维把中枢发出的指令信息传给效应器，都是以神经冲动的形式传送的，而神经冲动就是一种称为动作电位的生物电变化，是神经兴奋的标志。
中枢神经通过周围神经与人体其他各个器官、系统发生极其广泛复杂的联系。神经系统在维持机体内环境稳定，保持机体完整统一性及其与外环境的协调平衡中起着主导作用。在社会劳动中，人类的大脑皮层得到了高速发展和不断完善，产生了语言、思维、学习、记忆等高级功能活动，使人不仅能适应环境的变化，而且能认识和主动改造环境。内、外环境的各种信息，由感受器接受后，通过周围神经传递到脑和脊髓的各级中枢进行整合，再经周围神经控制和调节机体各系统器官的活动，以维持机体与内、外界环境的相对平衡。神经系统是由神经细胞（神经元）和神经胶质所组成。
中枢神经通过周围神经与人体其他各个器官、系统发生极其广泛复杂的联系。神经系统在维持机体内环境稳定，保持机体完整统一性及其与外环境的协调平衡中起着主导作用。在社会劳动中，人类的大脑皮层得到了高速发展和不断完善，产生了语言、思维、学习、记忆等高级功能活动，使人不仅能适应环境的变化，而且能认识和主动改造环境。内、外环境的各种信息，由感受器接受后，通过周围神经传递到脑和脊髓的各级中枢进行整合，再经周围神经控制和调节机体各系统器官的活动，以维持机体与内、外界环境的相对平衡。神经系统是由神经细胞（神经元）和神经胶质所组成。
中枢神经系统central nervous system包括位于颅腔内的脑和位于椎管内的脊髓。
脑brain是中枢神经系统的头端膨大部分，位于颅腔内。人脑可分为端脑、间脑、中脑、脑桥、小脑和延髓六个部分。通常把中脑、脑桥和延髓合称为脑干，延髓向下经枕骨大孔连接脊髓。脑的内腔称为腔室，内含脑脊髓液。端脑包括左、右大脑半球。每个半球表层为灰质所覆叫大脑皮质。人类的大脑皮质在长期的进化过程中高度发展，它不仅是人类各种机能活动的高级中枢，也是人类思维和意识活动的物质基础。
脊髓spinal cord呈前后扁的圆柱体，位于椎管内，上端在平齐枕骨大孔处与延髓相续，下端终于第1腰椎下缘水平。脊髓前、后面的两侧发出许多条细的神经纤维束，叫做根丝。一定范围的根丝向外方集中成束，形成脊神经的前根和后根。前、后根在椎间孔处合并形成脊神经。脊髓以每对脊神经根根丝的出入范围为准，划分为31个节段，即颈髓8节（C1-8），胸髓12节（T1-12），腰髓5节（L1-5），骶髓（S1-5），尾髓1节（Co1）。
周围神经系统peripheral nervous system联络于中枢神经和其它各系统器官之间，包括与脑相连的12对脑神经cranial nerves和与脊髓相连的31对脊神经spinal nerves。按其所支配的周围器官的性质可分为分布于体表和骨骼肌的躯体神经系和分布于内脏、心血管和腺体的内脏神经系。

3. 循环神经网络（RNN）简介

 循环神经网络英文名称为 ( Recurrent Neural Network, RNN )，其通过使用带自反馈的神经元，能够处理任意长度的 时序 数据。
   给定输入时序序列        式中，  表示一段时序数据，  为时间长度
   以一段英文段落为例，其时序数据可以表示为：
   若是一段视频，将其每一帧通过CNN网络处理得到相应的编码向量
   循环神经网络通过以下公式更新隐藏层的活性值          
                                           
   循环神经网络图示
   RNN的基本模型如下图所示，为便于理解，图中将RNN的模型展开，按照时序方向对其前向传播流程进行介绍
                                           RNN的基本模型
   利用数学表达式整个过程可以变得更加清晰，RNN的前向传播公式如下：     
     
     
     
   将上述过程整合到一个RNN cell中，可以表示为如下图所示的过程：
                                           RNN的前向传播示意图
   缺陷:
   没有利用到模型后续的信息，可以通过双向RNN网络进行优化
   RNN主要有两种计算梯度的方式：随时间反向传播（BPTT）和实时循环学习法（RTRL）算法
   本文中主要介绍随时间反向传播的方法 （  BackPropagation Through Time  ）
   RNN的损失函数与任务有关，对于同步的序列对序列任务，其loss可以用交叉熵公式表示     
     
   然后通过BPTT算法便可以进行梯度的反向传播计算
   梯度爆炸的解决方法：梯度修剪
   梯度消失的解决方法：增加长程依赖 LSTM,GRU
   GRU的基本思路：增加相关门（Relate Gate）和更新门（Update Gate），进而使得RNN单元具有记忆能力
   首先从数学角度对GRU的前向传播过程进行介绍，具体公式如下：     
     
     
     
     
     
   公式中各变量的含义：
   将上述数学公式转化为图像，可得
                                           GRU Cell的前向传播流程
   LSTM意为长短时记忆网络  （Long Short-Term Memory Network，LSTM）  ，可以有效地解决简单神经网络的梯度消失和爆炸问题
   在LSTM中，与GRU主要有两点不同
   同样，先从数学公式入手，对LSTM的前向传播过程进行了解     
     
     
     
     
     
   基于数学公式的过程，可将LSTM CELL的前向传播过程总结为（图片借用于nndl）：
                                           LSTM Cell的前向传播示意图
   从上图中可以看出，LSTM在前向传播的过程中传输了两个状态：内部状态  以及外部状态  ，在整个传播过程中 外部状态（隐状态）   每个时刻都会被重写，因此可以看作一种 短时记忆 ，而 内部状态   可以在某个时刻捕捉一些关键信息，并将此信息保存一段时间间隔，可以看作一种 长时记忆 （长的短时记忆）
   此外，在LSTM网络初始化训练的时候，需要手动将遗忘门的数值设置的大一些，否则在参数初始化的时候，遗忘门的数据会被初始化为一个很小的值，前一时刻的内部状态  大部分都会丢失，这样网络很难获取到长距离的依赖信息，并且相邻时间间隔的梯度会非常小，导致 梯度弥散 问题，因此遗忘门的 偏置变量  的初始值 一般很大，取 1或2 
   将  设置为1即可，但是长度非常的大的时候会造成记忆单元的饱和，降低性能
   三个门不仅依赖于  和  ，也依赖于  
   将两者合并为一个门，即：     
   首先，我们要理解什么是深层的RNN，对于单个的RNN cell，若将其在时间维度上展开，其深度与时间维度的长度成正比，但若将一个RNN cell看作为单个从  的映射函数，则单个cell实际上是很浅显的一层，因此深层循环神经网络要做的就是把多个RNN cell组合起来，换句话说，就是增加从输入  到输出  的路径，使得网络的深度更深。
   如何增加从输入  到输出  的路径呢？两种途径：
                                           堆叠循环神经网络示意图
   将网络带入到实际应用场景中：假如我们要翻译一段句子
   在这里，is和are实际上是由后面的Lucy和they所决定的，而这种单向的按照时序进行传播的方式没有利用到后面的信息。因此诞生了双向循环网络
                                           双向循环神经网络示意图
   双向循环神经网络实际上就是简单的双层循环神经网络，只不过第二层网络的传播方式为按时序的逆向传播，其传播公式为：

循环神经网络（RNN）简介

4. 循环神经网络

  为什么卷积神经网络不会出现严重的数值问题呢？    卷积神经网络中每一层的权重矩阵 W 是不同的，并且在初始化时它们是独立同分布的，因此可以相互抵消，在多层之后一般不会出现严重的数值问题。   循环神经网络采用 ReLu 激活函数，只有当 W 的取值在单位矩阵附近时才能取得比较好的效果，因此需要将 W 初始化为单位矩阵。
   Seq2Seq 模型最基础的解码方法是贪心法，即选取一种度量标准后，每次都在当前状态下选择最佳的一个结果，直到结束。贪心法的计算代价低，适合作为基准结果与其他方法相比较。贪心法获得的是一个局部最优解，由于实际问题的复杂性，该方法往往不能取得最好的结果。    集束搜索： 是一种启发式算法，会保存 beam size 个当前的较佳选择，然后解码时每一步根据保存的选则进行下一步扩展和排序，接着选择前 b 个进行保存，循环迭代，知道结束时选择最佳的一个作为解码的结果。 b 往往选择一个适中的范围，以 8-12 为佳。    
                                           
    Seq2Seq 模型引入注意力机制是为了解决什么问题？为什么选用了双向的循环神经网络模型？    编码时输入序列的全部信息压缩到了一个向量中，随着序列增长，句子越前面的词的信息丢失越严重。同时，Seq2Seq 模型的输出序列中，常常会损失部分输入序列信息，这是解码时，当前词及对应的源语言词的上下文信息和位置信息在编解码过程中丢失了。 引入注意力机制，解决上述问题 。使用双向的循环神经网络进行建模，可以获取前后文的信息。