Bor*_*ris 8 wikipedia gensim word2vec
我需要使用gensim来获取单词的向量表示,并且我认为使用的最好的东西是在英语维基百科语料库上预训练的word2vec模块.有谁知道在哪里下载,如何安装,以及如何使用gensim创建向量?
for*_*i23 12
您可以检查WebVectors以查找在各种语料库上训练的Word2Vec模型.模型附带自述文件,涵盖培训细节.不过,你必须要小心使用这些模型.我不确定所有这些,但至少在维基百科的情况下,该模型不是一个二进制文件,您可以使用例如gensim的功能直接加载,但是一个txt版本,即带有单词和相应向量的文件.请记住,虽然,这四个字是由他们的部分的语音(POS)标签附加,因此,例如,如果你想使用该模型找出字相似vacation,你会得到一个KeyError,如果你因为模型将这个单词存储为,所以按原样输入假期vacation_NOUN.关于如何使用wiki模型的示例片段(如果它们的格式相同,可能还有其他模型)和输出如下
import gensim.models
model = "./WebVectors/3/enwiki_5_ner.txt"
word_vectors = gensim.models.KeyedVectors.load_word2vec_format(model, binary=False)
print(word_vectors.most_similar("vacation_NOUN"))
print(word_vectors.most_similar(positive=['woman_NOUN', 'king_NOUN'], negative=['man_NOUN']))
Run Code Online (Sandbox Code Playgroud)
和输出
? python3 wiki_model.py
[('vacation_VERB', 0.6829521656036377), ('honeymoon_NOUN', 0.6811978816986084), ('holiday_NOUN', 0.6588436365127563), ('vacationer_NOUN', 0.6212040781974792), ('resort_NOUN', 0.5720850825309753), ('trip_NOUN', 0.5585346817970276), ('holiday_VERB', 0.5482848882675171), ('week-end_NOUN', 0.5174300670623779), ('newlywed_NOUN', 0.5146450996398926), ('honeymoon_VERB', 0.5135983228683472)]
[('monarch_NOUN', 0.6679952144622803), ('ruler_NOUN', 0.6257176995277405), ('regnant_NOUN', 0.6217397451400757), ('royal_ADJ', 0.6212111115455627), ('princess_NOUN', 0.6133661866188049), ('queen_NOUN', 0.6015778183937073), ('kingship_NOUN', 0.5986001491546631), ('prince_NOUN', 0.5900266170501709), ('royal_NOUN', 0.5886058807373047), ('throne_NOUN', 0.5855424404144287)]
Run Code Online (Sandbox Code Playgroud)
更新 以下是二进制模型的一些有用链接:
| 归档时间: |
|
| 查看次数: |
8831 次 |
| 最近记录: |