如何构建用于分类的 LSTM 神经网络

Question

如何构建用于分类的 LSTM 神经网络

DJK*_*DJK 5 python nlp neural-network lstm keras

我有两个人之间进行各种对话的数据。每个句子都有某种类型的分类。我正在尝试使用 NLP 网络对对话的每个句子进行分类。我尝试了卷积网络并获得了不错的结果（不是开创性的）。我认为由于这是一个来回的对话，LSTM 网络可能会产生更好的结果，因为之前所说的可能会对接下来的内容产生很大的影响。

如果我遵循上面的结构，我会假设我在做多对多。我的数据看起来像。

X_train = [[sentence 1],  
           [sentence 2],
           [sentence 3]]
Y_train = [[0],
           [1],
           [0]]

Run Code Online (Sandbox Code Playgroud)

数据已使用 word2vec 处理。然后我设计我的网络如下..

model = Sequential()      
model.add(Embedding(len(vocabulary),embedding_dim,
          input_length=X_train.shape[1]))
model.add(LSTM(88))
model.add(Dense(1,activation='sigmoid'))
model.compile(optimizer='rmsprop',loss='binary_crossentropy',
              metrics['accuracy'])
model.fit(X_train,Y_train,verbose=2,nb_epoch=3,batch_size=15)

Run Code Online (Sandbox Code Playgroud)

我假设此设置将一次输入一批句子。然而，如果在 model.fit 中，shuffle 不等于 false 接收混洗批次，那么为什么 LSTM 网络在这种情况下甚至有用？从对该主题的研究来看，要实现多对多结构，还需要更改 LSTM 层

model.add(LSTM(88,return_sequence=True))

Run Code Online (Sandbox Code Playgroud)

并且输出层需要...

model.add(TimeDistributed(Dense(1,activation='sigmoid')))

Run Code Online (Sandbox Code Playgroud)

切换到此结构时，我收到输入大小错误。我不确定如何重新格式化数据以满足此要求，以及如何编辑嵌入层以接收新的数据格式。

任何投入将不胜感激。或者，如果您对更好的方法有任何建议，我很高兴听到他们！

Answer 1

Nas*_*Ben 4

你的第一次尝试很好。洗牌发生在句子之间，唯一的洗牌是它们之间的训练样本，这样它们就不会总是以相同的顺序出现。句子内的单词不会被打乱。

或者也许我没有正确理解这个问题？

编辑：

在更好地理解了这个问题之后，这是我的建议。

数据准备： 将语料库切成句子块n（它们可以重叠）。然后你应该有一个(number_blocks_of_sentences, n, number_of_words_per_sentence)基本上类似于包含n句子块的二维数组列表的形状。n不应该太大，因为 LSTM 在训练时无法处理序列中的大量元素（梯度消失）。您的目标应该是一个形状数组(number_blocks_of_sentences, n, 1)，因此也是一个包含句子块中每个句子的类的二维数组列表。

模型：

n_sentences = X_train.shape[1]  # number of sentences in a sample (n)
n_words = X_train.shape[2]      # number of words in a sentence

model = Sequential()
# Reshape the input because Embedding only accepts shape (batch_size, input_length) so we just transform list of sentences in huge list of words
model.add(Reshape((n_sentences * n_words,),input_shape = (n_sentences, n_words)))
# Embedding layer - output shape will be (batch_size, n_sentences * n_words, embedding_dim) so each sample in the batch is a big 2D array of words embedded 
model.add(Embedding(len(vocabaulary), embedding_dim, input_length = n_sentences * n_words ))
# Recreate the sentence shaped array
model.add(Reshape((n_sentences, n_words, embedding_dim))) 
# Encode each sentence - output shape is (batch_size, n_sentences, 88)
model.add(TimeDistributed(LSTM(88)))
# Go over lines and output hidden layer which contains info about previous sentences - output shape is (batch_size, n_sentences, hidden_dim)
model.add(LSTM(hidden_dim, return_sequence=True))
# Predict output binary class - output shape is (batch_size, n_sentences, 1)
model.add(TimeDistributed(Dense(1,activation='sigmoid')))
...

Run Code Online (Sandbox Code Playgroud)

这应该是一个好的开始。

我希望这有帮助

归档时间：	9 年前
查看次数：	1752 次
最近记录：	8 年，9 月前