Word2Vec 词汇结果仅包含字母和符号

Question

Word2Vec 词汇结果仅包含字母和符号

Alf*_*nry 2 python tokenize python-3.x gensim word2vec

我是 Word2Vec 的新手，我正在尝试根据单词的相似性对单词进行聚类。首先，我使用 nltk 来分隔句子，然后使用生成的句子列表作为 Word2Vec 的输入。然而，当我打印词汇时，它只是一堆字母、数字和符号，而不是单词。具体来说，其中一个字母的示例是“< gensim.models.keyedvectors.Vocab object at 0x00000238145AB438>, 'L':”

# imports needed and logging
import gensim
from gensim.models import word2vec
import logging

import nltk
#nltk.download('punkt')
#nltk.download('averaged_perceptron_tagger')
with open('C:\\Users\\Freddy\\Desktop\\Thesis\\Descriptions.txt','r') as f_open:
    text = f_open.read()
arr = []

sentences = nltk.sent_tokenize(text) # this gives a list of sentences

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',level=logging.INFO)

model = word2vec.Word2Vec(sentences, size = 300)

print(model.wv.vocab)

Run Code Online (Sandbox Code Playgroud)

Answer 1

sop*_*ros 5

作为教程和文档Word2Vec建议的，类的构造函数需要单词列表列表作为第一个参数（或者一般单词迭代器的迭代器）：

\n\n

\n
句子（可迭代的可迭代，可选） \xe2\x80\x93 可迭代的句子可以只是标记列表的列表，但对于较大的\n 语料库，...
\n

\n\n

我相信在输入之前sentences你Word2Vec需要使用words_tokenize每个句子的关键行更改为：

\n\n

sentences = [nltk.word_tokenize(sent) for sent in nltk.sent_tokenize(text)]\n

Run Code Online (Sandbox Code Playgroud)\n\n

长话短说

\n\n

你得到字母作为你的“单词”，因为Word2Vec将与句子相对应的字符串视为包含单词的可迭代对象。迭代字符串会产生字母序列。这些字母用作模型学习的基础（而不是预期的单词）。

\n\n

俗话说：垃圾进-垃圾出。

\n

归档时间：	6 年，10 月前
查看次数：	2524 次
最近记录：	6 年，10 月前