我有一个大型语料库(大约40万个独特的句子)。我只想获取每个单词的TF-IDF分数。我试图通过扫描每个单词并计算频率来计算每个单词的分数,但是它花费的时间太长。
我用了 :
X= tfidfVectorizer(corpus)
来自sklearn,但它直接返回句子的向量表示。有什么方法可以获取语料库中每个单词的TF-IDF分数吗?
python nlp tf-idf tfidfvectorizer
nlp ×1
python ×1
tf-idf ×1
tfidfvectorizer ×1