Keras RNN 回归输入维度和架构
Keras RNN Regression Input dimensions and architecture
我最近在 Keras 中构建了一个 CNN(以 Tensorflow 作为后端),它将恒星光谱作为输入并预测三个恒星参数作为输出:温度、表面重力和金属度。我现在正在尝试创建一个执行相同操作的 RNN,以便比较这两个模型。
在搜索示例和论坛后,我没有遇到很多与我的项目足够相似的应用程序。我已经尝试实现一个简单的 RNN 以查看是否可以得出合理的结果,但到目前为止运气不佳:网络似乎根本没有在学习。
我真的需要一些指导来帮助我入门。具体来说:
RNN 是否适合解决此类问题?
模型的正确输入形状是什么?我知道这取决于网络的架构,所以我想我的下一个问题是:能够计算回归预测的简单架构是什么?
我的输入数据是这样的,我有 m=50,000 个光谱,每个光谱有 n=7000 个数据点,并且我试图学习 L=3 个输出标签。我还有具有相同 n 和 L 维度的测试集和交叉验证集。
当将我的输入数据构造为 (m,n,1) 并将我的输出目标构造为 (m,L) 并使用以下架构时,损失似乎并没有减少。
n=7000
L=3
## train_X.shape = (50000, n, 1)
## train_Y.shape = (50000, L)
## cv_X.shape = (10000, n, 1)
## cv_Y.shape = (10000, L)
batch_size=32
lstm_layers = [16, 32]
input_shape = (None, n, 1)
model = Sequential([
InputLayer(batch_input_shape=input_shape),
LSTM(lstm_layers[0],return_sequences=True, dropout_W=0.2, dropout_U=0.2),
LSTM(lstm_layers[1], return_sequences=False),
Dense(L),
Activation('linear')
])
model.compile(loss='mean_squared_error',
optimizer='adam',
metrics=['accuracy'])
model.fit(train_X, train_Y, batch_size=batch_size, nb_epoch=20,
validation_data=(cv_X, cv_Y), verbose=2)
我也试过将我的输入形状更改为 (m, 1, n) 但仍然没有成功。我不是在寻找最佳网络,只是在寻找可以训练的东西,然后我可以从那里获取它。我的输入数据不是时间序列的,但频谱的一部分与前一部分之间存在关系,所以有没有一种方法可以将每个频谱构造成一个二维数组,让 RNN 从中学习恒星参数光谱?
首先你设置
train_X.shape = (50000, n, 1)
然后你写
input_shape = (None, 1, n)
你为什么不试试
input_shape = (None, n, 1) ?
RNN 接收一系列 n
时间步长和每个时间步长 1 个值比相反的方式更有意义。
有帮助吗? :)
**编辑:**
好的,重新阅读这里是我对你的问题的 2cents:LSTM 不是一个好主意。
1) 因为没有"temporal"信息,所以光谱信息中没有"direction"。例如,LSTM 擅长捕捉不断变化的世界状态。将频谱开头的信息与结尾的信息结合起来并不是最好的。它将 "read" 从头开始,并且随着状态的更新,该信息将消失。您可以尝试使用双向 LSTM 来反驳存在 "no direction" 的事实。但是,转到第二点。
2) 7000 个时间步对于 LSTM 来说太过分了。当它训练时,在反向传播步骤中,LSTM 展开并且信息必须经过“7000 层”(实际上不是 7000,因为它们具有相同的权重)。这是非常非常难训练的。我会将 LSTM 限制为最多 100 步(根据我的经验)。
否则你输入的形状是正确的:)
你试过深度全连接网络吗?!我相信这会更有效率。
我最近在 Keras 中构建了一个 CNN(以 Tensorflow 作为后端),它将恒星光谱作为输入并预测三个恒星参数作为输出:温度、表面重力和金属度。我现在正在尝试创建一个执行相同操作的 RNN,以便比较这两个模型。
在搜索示例和论坛后,我没有遇到很多与我的项目足够相似的应用程序。我已经尝试实现一个简单的 RNN 以查看是否可以得出合理的结果,但到目前为止运气不佳:网络似乎根本没有在学习。
我真的需要一些指导来帮助我入门。具体来说: RNN 是否适合解决此类问题? 模型的正确输入形状是什么?我知道这取决于网络的架构,所以我想我的下一个问题是:能够计算回归预测的简单架构是什么?
我的输入数据是这样的,我有 m=50,000 个光谱,每个光谱有 n=7000 个数据点,并且我试图学习 L=3 个输出标签。我还有具有相同 n 和 L 维度的测试集和交叉验证集。 当将我的输入数据构造为 (m,n,1) 并将我的输出目标构造为 (m,L) 并使用以下架构时,损失似乎并没有减少。
n=7000
L=3
## train_X.shape = (50000, n, 1)
## train_Y.shape = (50000, L)
## cv_X.shape = (10000, n, 1)
## cv_Y.shape = (10000, L)
batch_size=32
lstm_layers = [16, 32]
input_shape = (None, n, 1)
model = Sequential([
InputLayer(batch_input_shape=input_shape),
LSTM(lstm_layers[0],return_sequences=True, dropout_W=0.2, dropout_U=0.2),
LSTM(lstm_layers[1], return_sequences=False),
Dense(L),
Activation('linear')
])
model.compile(loss='mean_squared_error',
optimizer='adam',
metrics=['accuracy'])
model.fit(train_X, train_Y, batch_size=batch_size, nb_epoch=20,
validation_data=(cv_X, cv_Y), verbose=2)
我也试过将我的输入形状更改为 (m, 1, n) 但仍然没有成功。我不是在寻找最佳网络,只是在寻找可以训练的东西,然后我可以从那里获取它。我的输入数据不是时间序列的,但频谱的一部分与前一部分之间存在关系,所以有没有一种方法可以将每个频谱构造成一个二维数组,让 RNN 从中学习恒星参数光谱?
首先你设置
train_X.shape = (50000, n, 1)
然后你写
input_shape = (None, 1, n)
你为什么不试试
input_shape = (None, n, 1) ?
RNN 接收一系列 n
时间步长和每个时间步长 1 个值比相反的方式更有意义。
有帮助吗? :)
**编辑:**
好的,重新阅读这里是我对你的问题的 2cents:LSTM 不是一个好主意。
1) 因为没有"temporal"信息,所以光谱信息中没有"direction"。例如,LSTM 擅长捕捉不断变化的世界状态。将频谱开头的信息与结尾的信息结合起来并不是最好的。它将 "read" 从头开始,并且随着状态的更新,该信息将消失。您可以尝试使用双向 LSTM 来反驳存在 "no direction" 的事实。但是,转到第二点。
2) 7000 个时间步对于 LSTM 来说太过分了。当它训练时,在反向传播步骤中,LSTM 展开并且信息必须经过“7000 层”(实际上不是 7000,因为它们具有相同的权重)。这是非常非常难训练的。我会将 LSTM 限制为最多 100 步(根据我的经验)。
否则你输入的形状是正确的:)
你试过深度全连接网络吗?!我相信这会更有效率。