使用带有预制索引字典的 Keras 标记器

Question

我正在研究 NLP 问题。

我已经下载了用于嵌入层的预制嵌入权重。在嵌入层之前，我需要对当前采用句子字符串形式的数据集进行标记。我想使用与我的预制嵌入层相同的索引来标记它。

有没有办法用这种预制的字典初始化 Keras 标记器（tensorflow.keras.preprocessing.text.Tokenizer）：{ 'the': 1, 'me': 2, 'a': 3 ..... }所以它不会自己决定给每个单词哪个索引？

Answer 1

您可以初始化标记器对象并手动为其分配单词索引。然后你可以用它来索引你的句子。

token = text.Tokenizer()
token.word_index = {"the":1, "elephant":2}
token.texts_to_sequences(["the elephant"])

这将返回 [[1, 2]]