我试图找到大型英语模型的词汇量大小,即en_core_web_lg,我找到了三个不同的信息来源:
en_core_web_lg
spaCy 的文档:685k 个键,685k 个唯一向量
nlp.vocab.__len__(): 1340242 # (词素数)
nlp.vocab.__len__()
len(vocab.strings): 1476045
len(vocab.strings)
三者有什么区别?我无法在文档中找到答案。
documentation nlp vocabulary spacy
documentation ×1
nlp ×1
spacy ×1
vocabulary ×1