咸宁旅游资讯网,濮阳缨,重庆弹子石楼盘
RNN 图解版 打胎智能与算法学习 2021-05-06 14:07:03神经收集是深度学习的载体,而神经收集模型中,最经典非RNN模型所属,尽管它不完善,但它具有学习汗青信息的能力。后面不管是encode-decode 框架,照样注意力模型,以及自注意力模型,以及更增强大的Bert模型家族,都是站在RNN的肩上,络续演化、变强的。
这篇文章,阐述了RNN的方方面面,包含模型布局,优缺点,RNN模型的几种应用,RNN常使用的激活函数,RNN的缺陷,以及GRU,LSTM是如何试图解决这些问题,RNN变体等。
这篇文章最大特点是图解版本,其次语言简练,总结全面。
概述
传统RNN的系统布局。Recurrent neural networks,也称为RNNs,是一类允许先前的输出用作输入,同时具有隐藏状态的神经收集。它们平日如下所示:
对于每一时步
, 激活函数
,输出
被表达为:
这里是时间维度收集的共享权重系数
是激活函数
下表总结了典型RNN架构的优缺点:
RNNs应用
RNN模型主要应用于天然语言处理和语音辨认领域。下表总结了分歧的应用:
丧失函数
对于RNN收集,所有时间步的丧失函数
是根据每个时间步的丧失界说的,如下所示:
时间反向流传
在每个时间点进行反向流传。在时间步
,丧失
相对于权重矩阵
的偏导数透露如下:
处理长短依赖
常用激活函数
RNN模块中最常用的激活函数描述如下:
梯度消失/爆炸
在RNN中常常遇到梯度消失和爆炸现象。之所以会产生这种环境,是因为很难捕获到历久的依赖关系,因为乘法梯度能够跟着层的数量呈指数递减/递增。
梯度修剪
梯度修剪是一种手艺,用于执行反向流传时,有时遇到的梯度爆炸问题。通过限定梯度的最大值,这种现象在实践中得以掌握。
门的类型
为认识决消失梯度问题,在某些类型的RNN中使用特定的门,而且平日有明确的目的。它们平日标注为
,等于:
此中,
,
,
是特定于门的系数,
是sigmoid函数。主要数据总结如下表:
GRU/LSTM
Gated Recurrent Unit(GRU)和长-短期记忆单元(LSTM)处理传统RNNs遇到的消失梯度问题,LSTM是GRU的推广。下表总结了每种布局的特性方程:
注:符号
透露两个向量之间按元素相乘。
RNN的变体
下表总结了其他常用的RNN模型:
参考文献:
https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks
本原:Python与算法社区
本文地址:http://www.wbwb.net/bianchengyuyan/207612.html 转载请注明出处!