如何训练纯文本段落并返回关键短语？那有可能吗？

Question

如何训练纯文本段落并返回关键短语？那有可能吗？

3 machine-learning neural-network deep-learning conv-neural-network keras

我正在研究关键短语提取，现在我能够创建一些功能并运行候选短语以及用于训练机器学习模型以使用随机森林进行分类的功能。

现在出于好奇，我想尝试深度学习，因为我想手动删除特征提取层，并且希望它自己找出特征并通过传递一些文本文档和相对关键短语来生成模型（1 / 0（无论正确与否），对于每个文档，我想知道，任何训练模型都接受纯文本而不是浮点值吗？训练模式

甚至尝试使用Keras顺序模型（给出的样本）创建模型

model = Sequential()
model.add(Dense(18, input_dim=14, init='uniform', activation='relu'))
model.add(Dense(14, init='uniform', activation='relu'))
model.add(Dense(1, init='uniform', activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X, Y, epochs=300, batch_size=10)

Run Code Online (Sandbox Code Playgroud)

Please provide me any informative resources to start and has code samples as well.

Answer 1

Geo*_* Yu 5

您可以使用word2Vector将每个单词转换为向量，那里有一些经过预训练的单词向量。例如，谷歌新闻（每个单词300个特征），维基百科（每个单词400个特征）。这些是通用的单词向量。如果您的内容来自某些特定来源，则可以使用gensim来训练自己的单词向量。您可以根据需要定义特征长度（100个甚至更少）。由于您自己的单词向量不必覆盖Google和Wikipedia一样多的单词。使用单词vector表示一个单词，您的句子或短语将是一个vector序列。然后，您可以使用RNN，GRU或LSTM任何时间序列模型来训练内核。预测1或0是否为关键短语。也称为命名实体识别。

归档时间：	6 年，7 月前
查看次数：	155 次
最近记录：	6 年，6 月前