使用带有预制索引字典的 Keras 标记器

Fus*_*ues 5 keras tensorflow

我正在研究 NLP 问题。

我已经下载了用于嵌入层的预制嵌入权重。在嵌入层之前,我需要对当前采用句子字符串形式的数据集进行标记。我想使用与我的预制嵌入层相同的索引来标记它。

有没有办法用这种预制的字典初始化 Keras 标记器(tensorflow.keras.preprocessing.text.Tokenizer):{ 'the': 1, 'me': 2, 'a': 3 ..... }所以它不会自己决定给每个单词哪个索引?

小智 7

您可以初始化标记器对象并手动为其分配单词索引。然后你可以用它来索引你的句子。

token = text.Tokenizer()
token.word_index = {"the":1, "elephant":2}
token.texts_to_sequences(["the elephant"])
Run Code Online (Sandbox Code Playgroud)

这将返回 [[1, 2]]