hi *_*bye 5 python language-model spacy
https://spacy.io/models/en#en_vectors_web_lg 表示该模型包含 110 万个密钥,但 https://nlp.stanford.edu/projects/glove/ 表示 Glove 向量包含 220 万个词汇
我可以知道缺少哪些词汇吗?
非常感谢。
您可以通过查看 spaCy.vocab属性/对象并将其与 GloVe 文件中的单词进行比较来自行检查 spaCy 和 GloVe 模型的词汇表。首先将数据加载到两个列表中:
import spacy
nlp = spacy.load('en_vectors_web_lg')
spacy_words = [word for word in nlp.vocab.strings]
glove_filename = 'glove.840B.300d.txt'
glove_words = [line.split()[0].decode('utf-8') for line in open(glove_filename)]
Run Code Online (Sandbox Code Playgroud)
然后检查设置的差异以获得“缺失”的单词:
>>> list(set(glove_words) - set(spacy_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia',
u'.90.99', u'USAMol', u'USAMon', u'Connerty', u'RealLife',
u'NaughtyAllie']
>>> list(set(spacy_words) - set(glove_words))[:10]
[u'ftdna', u'verplank', u'NICARIO', u'Plastic-Treated', u'ZAI-TECH',
u'Lower-Sulfur', u'desmonds', u'KUDNER', u'berlinghoff', u'50-ACRE']
Run Code Online (Sandbox Code Playgroud)
多于 2.2 mio - 1.1 mio ~ 1.1 mio 单词缺失:
>>> len(set(glove_words) - set(spacy_words))
1528158
Run Code Online (Sandbox Code Playgroud)
nlp.vocab.strings请注意,和中的内容有所不同nlp.vocab.vectors。您可以使用以下命令从矢量对象加载单词
vector_words = []
for key, vector in nlp.vocab.vectors.items():
try:
vector_words.append(nlp.vocab.strings[key])
except KeyError:
pass
Run Code Online (Sandbox Code Playgroud)
(关于 try/ except:我不清楚为什么 中缺少一些键vocab.strings)
通过此列表,您可以获得:
>>> list(set(glove_words) - set(vector_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia', u'.90.99',
u'USAMol', u'USAMon', u'Connerty', u'RealLife', u'NaughtyAllie']
Run Code Online (Sandbox Code Playgroud)
更新:词汇之间差异的问题已在此处提出https://github.com/explosion/spaCy/issues/1985。
| 归档时间: |
|
| 查看次数: |
2552 次 |
| 最近记录: |