simpleRNN input/output 形状

Question

我在 keras 中定义了一个简单的 RNN，代码如下：

# define RNN architecture
from keras.layers import Input
from keras.models import Model
from keras.layers import SimpleRNN
from keras.models import Sequential

model = Sequential()
model.add(SimpleRNN(units = 10,
                    return_sequences=False, 
                    unroll=True,
                    input_shape=(6, 2)))

model.compile(loss='mse',
              optimizer='rmsprop',
              metrics=['accuracy'])
model.summary()

然后我用形状为 (batch_size, 6, 2) 的输入数据提供给它，即 6 个时间步长，每个时间步长有两个特征。因此，我希望有 6 个简单的 RNN 单元。

启动训练时，我收到以下错误消息：

Error when checking target: expected simple_rnn_2 to have shape (10,) but got array with shape (1,)

我不明白为什么。

RNN 的要点（我的理解）是让它的输入由前一个 RNN 单元提供，以防它不是第一个 RNN 单元和新的时间步长输入。

所以在这种情况下，我希望第一个 RNN 单元为第二个 RNN 单元提供一个形状为 (10,) 的向量，因为单位 = 10。它怎么会得到一个 (1,) 大小的向量？

奇怪的是，只要我在模型中添加一个 Dense 层，问题就解决了。所以下面的架构：

# define RNN architecture
from keras.layers import Input
from keras.models import Model
from keras.layers import SimpleRNN, Dense
from keras.models import Sequential

model = Sequential()
model.add(SimpleRNN(units = 10,
                    return_sequences=False, 
                    unroll=False,
                    input_shape=(6, 2)))
model.add(Dense(1, activation='relu'))
model.compile(loss='mse',
              optimizer='rmsprop',
              metrics=['accuracy'])
model.summary()

不会抛出错误。知道为什么吗？

Answer 1

假设您实际上是在训练模型（您没有包含该代码），问题是您正在为它提供形状 (1,) 的目标输出，而 SimpleRNN 期望输入形状 (10,)。您可以在此处查看文档：https://keras.io/layers/recurrent/

文档明确指出 SimpleRNN 的输出等于 units，即 10。每个单元产生一个输出。

第二个示例确实有效，因为您添加了一个 Dense 层，将输出大小减小到 (1,)。现在该模型可以接受您的训练目标输出，并且它们通过网络反向传播。

simpleRNN input/output 形状

simpleRNN input/output shape

keras

recurrent-neural-network