相关疑难解决方法(0)

Word2Vec:使用的窗口大小的影响

我试图在非常短的短语(5克)上训练word2vec模型.由于每个句子或例子都很短,我相信我可以使用的窗口大小最多可以是2.我试图理解这么小的窗口大小对学习模型的质量有什么影响,这样我才能理解我的模型是否学到了有意义的东西.我尝试在5克上训练word2vec模型,但似乎学习模型不能很好地捕获语义等.

我使用以下测试来评估模型的准确性:https: //code.google.com/p/word2vec/source/browse/trunk/questions-words.txt

我使用gensim.Word2Vec来训练模型,这里是我的准确度分数的片段(使用2的窗口大小)

[{'correct': 2, 'incorrect': 304, 'section': 'capital-common-countries'},
 {'correct': 2, 'incorrect': 453, 'section': 'capital-world'},
 {'correct': 0, 'incorrect': 86, 'section': 'currency'},
 {'correct': 2, 'incorrect': 703, 'section': 'city-in-state'},
 {'correct': 123, 'incorrect': 183, 'section': 'family'},
 {'correct': 21, 'incorrect': 791, 'section': 'gram1-adjective-to-adverb'},
 {'correct': 8, 'incorrect': 544, 'section': 'gram2-opposite'},
 {'correct': 284, 'incorrect': 976, 'section': 'gram3-comparative'},
 {'correct': 67, 'incorrect': 863, 'section': 'gram4-superlative'},
 {'correct': 41, 'incorrect': 951, 'section': 'gram5-present-participle'},
 {'correct': 6, 'incorrect': 1089, 'section': 'gram6-nationality-adjective'},
 {'correct': 171, 'incorrect': 1389, 'section': 'gram7-past-tense'},
 {'correct': 56, …
Run Code Online (Sandbox Code Playgroud)

gensim word2vec

10
推荐指数
2
解决办法
1万
查看次数

标签 统计

gensim ×1

word2vec ×1