具有多个特征的 RNN 的数据形状/格式
Data Shape / Format for RNNs with Multiple Features
我正在尝试使用 python / keras 构建一个 RNN。我了解一个功能是如何完成的(输出为 t+1),但是多个功能是如何完成的?
如果我有一个回归问题和一个具有几个不同特征的数据集,一个预期的输出,我想将时间步长 / window 设置为 30(如果每个步长代表一个月一天) - 数据的形状是什么?在这个例子中,我希望能够预测未来 n 个时间段的输出。
有关此数据的示例,请参见下文:
我很难直观地理解 RNN 所需数据的最佳形状/格式。
此外,RNN 处理具有 500 个特征和几千条记录的数据集的效果如何?
希望有人可以帮助回答或指出我获得答案的正确方向 - 到目前为止,我已经在 Reddit 和 Cross Validated 上发帖,但没有成功 :(
如果首选代码数据示例:
# random df
df = pd.DataFrame({'date': np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
'feature_1': np.random.randint(10, size=10),
'feature_2': np.random.randint(10, size=10),
'feature_3': np.random.randint(10, size=10),
'feature_4': np.random.randint(10, size=10),
'output': np.random.randint(10, size=10)}
)
# set date as index
df.index = df.date
df = df.drop('date', 1)
假设您有 2 个时间序列 X 和 Y,并且您想要使用这两个时间序列来预测 X。
如果我们选择 3 的时间步长并假设我们有 (X1,...,Xt)
和 (Y1,...,Yt)
,第一个样本将是:
[[X1,X2,X3],[Y1,Y2,Y3]]
和相关输出:X4
。
第二个是 [[X2,X3,X4],[Y2,Y3,Y4]]
,输出是 X5
。
最后一个:[[Xt-3,Xt-2,Xt-1],[Yt-3,Yt-2,Yt-1]]
输出 Xt
。
例如,在第一个示例中:首先您将馈送到网络 (X1,Y1)
,然后是 (X2,Y2)
和 (X3,Y3)
。
这是创建输入和输出然后使用 LSTM 网络进行预测的代码:
import pandas as pd
import numpy as np
import keras.optimizers
from keras.models import Sequential
from keras.layers import Dense,Activation
from keras.layers import LSTM
#random df
df = pd.DataFrame({'date': np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
'feature_1': np.random.randint(10, size=10),
'feature_2': np.random.randint(10, size=10),
'feature_3': np.random.randint(10, size=10),
'feature_4': np.random.randint(10, size=10),
'output': np.random.randint(10, size=10)}
)
# set date as index
df.index = df.date
df = df.drop('date', 1)
nb_epoch = 10
batch_size = 10
learning_rate = 0.01
nb_units = 50
timeStep = 3
X = df[['feature_'+str(i) for i in range(1,5)]].values # Select good columns
sizeX = X.shape[0]-X.shape[0]%timeStep # Choose a number of observations that is a multiple of the timstep
X = X[:sizeX]
X = X.reshape(X.shape[0]/timeStep,timeStep,X.shape[1]) # Create X with shape (nb_sample,timestep,nb_features)
Y = df[['output']].values
Y = Y[range(3,len(Y),3)] #Select the good output
model = Sequential()
model.add(LSTM(input_dim = X.shape[2],output_dim = nb_units,return_sequences = False)) # One LSTM layer with 50 units
model.add(Activation("sigmoid"))
model.add(Dense(1)) #A dense layer which is the final layer
model.add(Activation('linear'))
KerasOptimizer = keras.optimizers.RMSprop(lr=learning_rate, rho=0.9, epsilon=1e-08, decay=0.0)
model.compile(loss="mse", optimizer=KerasOptimizer)
model.fit(X,Y,nb_epoch = nb_epoch,batch_size = batch_size)
prediction = model.predict(X)
我正在尝试使用 python / keras 构建一个 RNN。我了解一个功能是如何完成的(输出为 t+1),但是多个功能是如何完成的?
如果我有一个回归问题和一个具有几个不同特征的数据集,一个预期的输出,我想将时间步长 / window 设置为 30(如果每个步长代表一个月一天) - 数据的形状是什么?在这个例子中,我希望能够预测未来 n 个时间段的输出。
有关此数据的示例,请参见下文:
我很难直观地理解 RNN 所需数据的最佳形状/格式。
此外,RNN 处理具有 500 个特征和几千条记录的数据集的效果如何?
希望有人可以帮助回答或指出我获得答案的正确方向 - 到目前为止,我已经在 Reddit 和 Cross Validated 上发帖,但没有成功 :(
如果首选代码数据示例:
# random df
df = pd.DataFrame({'date': np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
'feature_1': np.random.randint(10, size=10),
'feature_2': np.random.randint(10, size=10),
'feature_3': np.random.randint(10, size=10),
'feature_4': np.random.randint(10, size=10),
'output': np.random.randint(10, size=10)}
)
# set date as index
df.index = df.date
df = df.drop('date', 1)
假设您有 2 个时间序列 X 和 Y,并且您想要使用这两个时间序列来预测 X。
如果我们选择 3 的时间步长并假设我们有 (X1,...,Xt)
和 (Y1,...,Yt)
,第一个样本将是:
[[X1,X2,X3],[Y1,Y2,Y3]]
和相关输出:X4
。
第二个是 [[X2,X3,X4],[Y2,Y3,Y4]]
,输出是 X5
。
最后一个:[[Xt-3,Xt-2,Xt-1],[Yt-3,Yt-2,Yt-1]]
输出 Xt
。
例如,在第一个示例中:首先您将馈送到网络 (X1,Y1)
,然后是 (X2,Y2)
和 (X3,Y3)
。
这是创建输入和输出然后使用 LSTM 网络进行预测的代码:
import pandas as pd
import numpy as np
import keras.optimizers
from keras.models import Sequential
from keras.layers import Dense,Activation
from keras.layers import LSTM
#random df
df = pd.DataFrame({'date': np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
'feature_1': np.random.randint(10, size=10),
'feature_2': np.random.randint(10, size=10),
'feature_3': np.random.randint(10, size=10),
'feature_4': np.random.randint(10, size=10),
'output': np.random.randint(10, size=10)}
)
# set date as index
df.index = df.date
df = df.drop('date', 1)
nb_epoch = 10
batch_size = 10
learning_rate = 0.01
nb_units = 50
timeStep = 3
X = df[['feature_'+str(i) for i in range(1,5)]].values # Select good columns
sizeX = X.shape[0]-X.shape[0]%timeStep # Choose a number of observations that is a multiple of the timstep
X = X[:sizeX]
X = X.reshape(X.shape[0]/timeStep,timeStep,X.shape[1]) # Create X with shape (nb_sample,timestep,nb_features)
Y = df[['output']].values
Y = Y[range(3,len(Y),3)] #Select the good output
model = Sequential()
model.add(LSTM(input_dim = X.shape[2],output_dim = nb_units,return_sequences = False)) # One LSTM layer with 50 units
model.add(Activation("sigmoid"))
model.add(Dense(1)) #A dense layer which is the final layer
model.add(Activation('linear'))
KerasOptimizer = keras.optimizers.RMSprop(lr=learning_rate, rho=0.9, epsilon=1e-08, decay=0.0)
model.compile(loss="mse", optimizer=KerasOptimizer)
model.fit(X,Y,nb_epoch = nb_epoch,batch_size = batch_size)
prediction = model.predict(X)