use*_*591 17 python gensim word2vec
我知道这问题已经被提出,但我仍然无法找到解决方案.
我想word2vec在自定义数据集上使用gensim ,但现在我仍然在弄清楚数据集必须采用的格式.我看了一下这篇文章,其中输入基本上是一个列表列表(一个包含其他列表的大列表,这些列表是来自NLTK Brown语料库的标记化句子).所以我认为这是我必须用于命令的输入格式word2vec.Word2Vec().但是,它不适用于我的小测试集,我不明白为什么.
我尝试过的:
这有效:
from gensim.models import word2vec
from nltk.corpus import brown
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
brown_vecs = word2vec.Word2Vec(brown.sents())
Run Code Online (Sandbox Code Playgroud)
这不起作用:
sentences = [ "the quick brown fox jumps over the lazy dogs","yoyoyo you go home now to sleep"]
vocab = [s.encode('utf-8').split() for s in sentences]
voc_vec = word2vec.Word2Vec(vocab)
Run Code Online (Sandbox Code Playgroud)
我不明白为什么它不适用于"模拟"数据,即使它具有与布朗语料库中的句子相同的数据结构:
词汇:
[['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dogs'], ['yoyoyo', 'you', 'go', 'home', 'now', 'to', 'sleep']]
Run Code Online (Sandbox Code Playgroud)
brown.sents() :(开头)
[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...]
Run Code Online (Sandbox Code Playgroud)
谁能告诉我我做错了什么?
kam*_*pta 51
min_countgensim中的默认值Word2Vec设置为5.如果您的词汇中没有频率大于4的单词,则您的词汇将为空,因此错误.尝试
voc_vec = word2vec.Word2Vec(vocab, min_count=1)
Run Code Online (Sandbox Code Playgroud)
小智 5
gensim Word2Vec 的输入可以是句子列表或单词列表或句子列表列表。
例如
1. sentences = ['I love ice-cream', 'he loves ice-cream', 'you love ice cream']
2. words = ['i','love','ice - cream', 'like', 'ice-cream']
3. sentences = [['i love ice-cream'], ['he loves ice-cream'], ['you love ice cream']]
Run Code Online (Sandbox Code Playgroud)
训练前建立词汇
model.build_vocab(sentences, update=False)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
15437 次 |
| 最近记录: |