我正在研究 NLP 问题。
我已经下载了用于嵌入层的预制嵌入权重。在嵌入层之前,我需要对当前采用句子字符串形式的数据集进行标记。我想使用与我的预制嵌入层相同的索引来标记它。
有没有办法用这种预制的字典初始化 Keras 标记器(tensorflow.keras.preprocessing.text.Tokenizer):{ 'the': 1, 'me': 2, 'a': 3 ..... }
所以它不会自己决定给每个单词哪个索引?
小智 7
您可以初始化标记器对象并手动为其分配单词索引。然后你可以用它来索引你的句子。
token = text.Tokenizer()
token.word_index = {"the":1, "elephant":2}
token.texts_to_sequences(["the elephant"])
Run Code Online (Sandbox Code Playgroud)
这将返回 [[1, 2]]
归档时间: |
|
查看次数: |
1135 次 |
最近记录: |