Keras：嵌入句子数组作为输入

Question

我是keras的新手。我尝试创建一个以嵌入层作为输入层的神经网络。据我目前的理解，结构如下所示：

model.add(Embedding(word_count,embedding_size,input_length=sentence_length).

这适用于标记句子的数据集。

现在我想更改数据集的结构。我将标记句子集（句子数组）。

据我所知，我不能再使用嵌入层作为输入层了。这是因为它需要一个句子作为输入，而不是一组句子。我可以改变一些东西，以便我仍然可以在我的模型中使用嵌入层，但将句子数组作为输入吗？

我的句子数组的数组长度始终相同，因为我的句子长度保持整个句子相同。

Answer 1

假设您有固定长度句子的数组，并且如您所述，所有数组中的句子数都相同。因此，如果将所有数据存储在一个张量中，它将具有 (num_of_arrays, num_of_sentences, length_of_sentence) 的形状。每个句子数组都有自己的标签。所以基本上你的模型应该将一组句子作为输入并预测它的标签。现在要使用嵌入层，我们首先重塑数据，然后将其传递给嵌入层，然后（如有必要）我们将其重新整形。这是一个例子：

from keras import models, layers

# the following numbers are just for demonstration
vocab_size = 1000
embed_dim = 50

num_arrays = 100
num_sentences = 200
len_sentence = 300

model = models.Sequential()
model.add(layers.Reshape((num_sentences*len_sentence,), input_shape=(num_sentences, len_sentence)))
model.add(layers.Embedding(vocab_size, embed_dim, input_length=num_sentences*len_sentence))
model.add(layers.Reshape((num_sentences, len_sentence, embed_dim)))
# add whatever layers as you wish to complete your model

model.summary()

这是模型摘要：

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
reshape_1 (Reshape)          (None, 60000)             0         
_________________________________________________________________
embedding_1 (Embedding)      (None, 60000, 50)         50000     
_________________________________________________________________
reshape_2 (Reshape)          (None, 200, 300, 50)      0         
=================================================================
Total params: 50,000
Trainable params: 50,000
Non-trainable params: 0
_________________________________________________________________

如您所见，数组中的每个句子现在都由形状为 (sentence_length, embed_dim) 的矩阵表示。现在您可以添加更多层来完成您的模型。我不确定这是否是您要求的。如果您还有其他意思，请在评论中告诉我。

Keras：嵌入句子数组作为输入

Keras: Embadding on Sentences Array as Input

python

machine-learning

neural-network

keras

word-embedding