simpleRNN input/output 形状

simpleRNN input/output shape

我在 keras 中定义了一个简单的 RNN,代码如下:

# define RNN architecture
from keras.layers import Input
from keras.models import Model
from keras.layers import SimpleRNN
from keras.models import Sequential

model = Sequential()
model.add(SimpleRNN(units = 10,
                    return_sequences=False, 
                    unroll=True,
                    input_shape=(6, 2)))

model.compile(loss='mse',
              optimizer='rmsprop',
              metrics=['accuracy'])
model.summary()

然后我用形状为 (batch_size, 6, 2) 的输入数据提供给它,即 6 个时间步长,每个时间步长有两个特征。因此,我希望有 6 个简单的 RNN 单元。

启动训练时,我收到以下错误消息:

Error when checking target: expected simple_rnn_2 to have shape (10,) but got array with shape (1,)

我不明白为什么。

RNN 的要点(我的理解)是让它的输入由前一个 RNN 单元提供,以防它不是第一个 RNN 单元和新的时间步长输入。

所以在这种情况下,我希望第一个 RNN 单元为第二个 RNN 单元提供一个形状为 (10,) 的向量,因为单位 = 10。它怎么会得到一个 (1,) 大小的向量?

奇怪的是,只要我在模型中添加一个 Dense 层,问题就解决了。所以下面的架构:

# define RNN architecture
from keras.layers import Input
from keras.models import Model
from keras.layers import SimpleRNN, Dense
from keras.models import Sequential

model = Sequential()
model.add(SimpleRNN(units = 10,
                    return_sequences=False, 
                    unroll=False,
                    input_shape=(6, 2)))
model.add(Dense(1, activation='relu'))
model.compile(loss='mse',
              optimizer='rmsprop',
              metrics=['accuracy'])
model.summary()

不会抛出错误。知道为什么吗?

假设您实际上是在训练模型(您没有包含该代码),问题是您正在为它提供形状 (1,) 的目标输出,而 SimpleRNN 期望输入形状 (10,)。您可以在此处查看文档:https://keras.io/layers/recurrent/

文档明确指出 SimpleRNN 的输出等于 units,即 10。每个单元产生一个输出。

第二个示例确实有效,因为您添加了一个 Dense 层,将输出大小减小到 (1,)。现在该模型可以接受您的训练目标输出,并且它们通过网络反向传播。