为什么缩放数据在神经网络(LSTM)中非常重要
Why scaling data is very important in neural network(LSTM)
我正在写关于如何在时间序列中应用 LSTM 神经网络的硕士论文。在我的实验中,我发现缩放数据会对结果产生很大的影响。例如,当我使用 tanh 激活函数,并且取值范围在 -1 和 1 之间时,模型似乎收敛得更快,并且验证错误在每个 epoch 之后也不会急剧跳跃。
有谁知道对此有任何数学解释吗?或者有没有论文已经解释过这种情况?
可能重点是非线性。我的方法来自混沌理论(分形、多重分形……),非线性动力系统的输入范围和参数值对系统行为有很大影响。这是因为非线性,在 tanh
区间 [-1,+1] 中的非线性类型不同于其他区间,即在 [10,infinity[ 范围内=60=]) 大约是。一个常数。
任何非线性动力系统仅在参数和初始值的特定范围内有效,参见即逻辑图。根据参数值和初始值的范围,逻辑映射的行为完全不同,这是对初始条件的敏感性
RNNs可以看作是非线性自参照系统。
总的来说,非线性动力系统和神经网络之间有一些显着的相似之处,即褪色记忆 属性非线性系统识别中的Volterra系列模型和循环神经网络中的消失梯度
强混沌系统对初始条件 敏感 属性 并且由于记忆力衰退,resp。消失的梯度
所以数学背景可能是非线性在特定区间范围内更 'active' 而线性在任何地方都同样活跃(它是线性或近似常数)
在 RNN 和单分形/多重分形的背景下 缩放 有两种不同的含义。这尤其令人困惑,因为 RNN 和非线性、自参照系统被深度 linked
在 RNN 的上下文中 缩放 意味着 范围 的限制
仿射变换
意义上的输入或输出值
在单分形/多重分形的背景下 缩放 意味着
非线性系统的输出具有 特定结构 即
在单分形的情况下标度不变,在自仿射分形的情况下自仿射......其中 scale 等同于 'zoom level'
RNN 和非线性自参照系统之间的 link 在于它们都是非线性和自参照系统。
一般来说对初始条件的敏感性(这与 RNN 中对缩放的敏感性有关)和缩放结果结构(输出)中的不变性仅出现在非线性自参照系统
中
以下论文很好地总结了非线性自参考系统输出中的多重分形和单分形缩放(不要与 RNN 的输入和输出缩放混淆):http://www.physics.mcgill.ca/~gang/eprints/eprintLovejoy/neweprint/Aegean.final.pdf
本文是非线性系统和 RNN 之间的直接 link:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4107715/ - Nonlinear System Modeling with Random Matrices: Echo State Networks Revisited
你的问题让我想起了我们 class 中使用的一张图片,但你可以在 3:02 的 here 中找到一张类似的图片。
在上图中可以明显看出左边的路径比右边的要长很多。缩放应用于左侧以变为右侧。
我正在写关于如何在时间序列中应用 LSTM 神经网络的硕士论文。在我的实验中,我发现缩放数据会对结果产生很大的影响。例如,当我使用 tanh 激活函数,并且取值范围在 -1 和 1 之间时,模型似乎收敛得更快,并且验证错误在每个 epoch 之后也不会急剧跳跃。
有谁知道对此有任何数学解释吗?或者有没有论文已经解释过这种情况?
可能重点是非线性。我的方法来自混沌理论(分形、多重分形……),非线性动力系统的输入范围和参数值对系统行为有很大影响。这是因为非线性,在 tanh
区间 [-1,+1] 中的非线性类型不同于其他区间,即在 [10,infinity[ 范围内=60=]) 大约是。一个常数。
任何非线性动力系统仅在参数和初始值的特定范围内有效,参见即逻辑图。根据参数值和初始值的范围,逻辑映射的行为完全不同,这是对初始条件的敏感性 RNNs可以看作是非线性自参照系统。
总的来说,非线性动力系统和神经网络之间有一些显着的相似之处,即褪色记忆 属性非线性系统识别中的Volterra系列模型和循环神经网络中的消失梯度
强混沌系统对初始条件 敏感 属性 并且由于记忆力衰退,resp。消失的梯度
所以数学背景可能是非线性在特定区间范围内更 'active' 而线性在任何地方都同样活跃(它是线性或近似常数)
在 RNN 和单分形/多重分形的背景下 缩放 有两种不同的含义。这尤其令人困惑,因为 RNN 和非线性、自参照系统被深度 linked
在 RNN 的上下文中 缩放 意味着 范围 的限制 仿射变换
意义上的输入或输出值
在单分形/多重分形的背景下 缩放 意味着 非线性系统的输出具有 特定结构 即 在单分形的情况下标度不变,在自仿射分形的情况下自仿射......其中 scale 等同于 'zoom level'
RNN 和非线性自参照系统之间的 link 在于它们都是非线性和自参照系统。
一般来说对初始条件的敏感性(这与 RNN 中对缩放的敏感性有关)和缩放结果结构(输出)中的不变性仅出现在非线性自参照系统
中以下论文很好地总结了非线性自参考系统输出中的多重分形和单分形缩放(不要与 RNN 的输入和输出缩放混淆):http://www.physics.mcgill.ca/~gang/eprints/eprintLovejoy/neweprint/Aegean.final.pdf
本文是非线性系统和 RNN 之间的直接 link:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4107715/ - Nonlinear System Modeling with Random Matrices: Echo State Networks Revisited
你的问题让我想起了我们 class 中使用的一张图片,但你可以在 3:02 的 here 中找到一张类似的图片。
在上图中可以明显看出左边的路径比右边的要长很多。缩放应用于左侧以变为右侧。