如何将向量中的数字和分类值组合为LSTM的输入？

Question

如何将向量中的数字和分类值组合为LSTM的输入？

The*_*ght 8 python categorical-data deep-learning lstm keras

import pandas as pd
import numpy as np

rands = np.random.random(7)
days = ['Sunday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday']
dates = pd.date_range('2018-01-01', '2018-01-07')

df = pd.DataFrame({'date': dates, 'days': days, 'y': rands})

df_days_onehot = pd.get_dummies(df.days)[days]
df[days] = df_days_onehot
df['target'] = df.y.shift(-1)

df.drop('days', axis=1, inplace=True)
df.set_index('date', inplace=True)

X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

Run Code Online (Sandbox Code Playgroud)

我在上面共享了一个代码示例。我的问题是如何将数字变量和分类变量结合起来作为LSTM的输入？

输入向量应如何？

是否应该像[0.123，0，1，0，0 ...]（如代码中的X）dim =（1,8）？
它应该像[0.123，[0，1，0，0 ...]] dim（1,2）
还是有特定的方式将输入传递给ANN或RNN等。如果是，它是什么，为什么我们应该使用它们（优点/缺点）？

我阅读了有关嵌入的内容，但由于我想学习所有这些背后的逻辑，因此对我来说解释还不够。

像这样

model = Sequential()
model.add(LSTM(64, batch_input_shape=(batch_size, look_back, 1), stateful=True, return_sequences=True))
model.add(Dropout(0.3))
model.add(LSTM(32, batch_input_shape=(batch_size, look_back, 1), stateful=True))
model.add(Dropout(0.3))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer=adam)
model.fit(trainX, trainY, epochs=100, batch_size=batch_size, verbose=2, shuffle=False)

Run Code Online (Sandbox Code Playgroud)

任何指导，链接，解释或帮助都将适用...祝您有愉快的一天。

Answer 1

use*_*007 11

在处理各种范围的输入（如归一化等）时，可以查看各种预处理。一个热点表示当然是表示类别的好方法。

当类别元素过多导致一种热编码非常大时，将使用嵌入。它们提供了对给定输入进行编码的向量表示（可能是可训练的）。您可以在下面的链接中阅读有关它们的更多信息。嵌入在 NLP 中的使用非常普遍。

https://towardsdatascience.com/deep-learning-4-embedding-layers-f9a02d55ac12

除此之外，您还可以利用 Keras 建模支持多个输入层这一事实。

对于您的具体情况，这里有一个可以帮助您入门的虚构示例。再次，我添加了几个密集的隐藏层只是为了证明这一点。它应该是不言自明的

X1 = rands  
X2 = df_days_onehot
Y = np.random.random(7)

float_input = Input(shape=(1, ))
one_hot_input = Input(shape=(7,) )

first_dense = Dense(3)(float_input)
second_dense = Dense(50)(one_hot_input)

merge_one = concatenate([first_dense, second_dense])
dense_inner = Dense(10)(merge_one)
dense_output = Dense(1)(dense_inner)


model = Model(inputs=[float_input, one_hot_input], outputs=dense_output)


model.compile(loss='mean_squared_error',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

model.fit([X1,X2], Y, epochs=2)

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，5 月前
查看次数：	2763 次
最近记录：	6 年，7 月前