我已经看过这个问题.但这适用于Mac OS.我正在使用Windows.每次我创建一个新项目或尝试build/rebuild该项目它冻结!! 我安装了最新版本(2016年10月9日).但情况正在恶化.我想完全删除它并安装它,就像我第一次安装它一样.任何帮助都应该得到赞赏.
我知道术语 - 文档矩阵是一个数学矩阵,它描述了文档集合中出现的术语的频率.在文档术语矩阵中,行对应于集合中的文档,列对应于术语.
我正在使用sklearn的CountVectorizer从字符串(文本文件)中提取功能以简化我的任务.以下代码根据sklearn_documentation返回term-document矩阵
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
vectorizer = CountVectorizer(min_df=1)
print(vectorizer)
content = ["how to format my hard disk", "hard disk format problems"]
X = vectorizer.fit_transform(content) #X is Term-document matrix
print(X)
Run Code Online (Sandbox Code Playgroud)
输出如下
我没有得到如何计算这个矩阵.请讨论代码中显示的示例.我已经阅读了维基百科的另一个例子,但无法理解.