kar*_*iks 9 nlp machine-learning tokenize deep-learning keras
因此,如果我num_words在初始化时不传递参数Tokenizer(),那么在使用它来标记训练数据集后如何找到词汇量大小?
为什么这样,我不想限制分词器词汇量的大小来了解我的 Keras 模型在没有它的情况下的表现。但随后我需要将此词汇量大小作为模型第一层定义中的参数传递。
tod*_*day 15
所有单词及其索引都将存储在字典中,您可以使用tokenizer.word_index. 因此,您可以根据该词典中的元素数量找到唯一词的数量:
num_words = len(tokenizer.word_index) + 1
Run Code Online (Sandbox Code Playgroud)
那+ 1是因为保留填充(即索引零)。
注意:此解决方案(显然)适用于您尚未设置num_words参数(即您不知道或想限制单词数量)的情况,因为无论您设置什么,都word_index包含所有单词(而不仅仅是最常用的单词)num_words或不。
| 归档时间: |
|
| 查看次数: |
8404 次 |
| 最近记录: |