小编Dha*_*kar的帖子

传递了一个稀疏矩阵,但需要密集数据。使用 X.toarray() 转换为密集的 numpy 数组

代码如下,我正在尝试将训练数据用于 GBRT 回归树,相同的数据适用于其他分类器,但对于 GBRT 给出了上述错误。请帮忙 :

dataset = load_files('train')
vectorizer = TfidfVectorizer(encoding='latin1')
X_train = vectorizer.fit_transform((open(f).read() for f in dataset.filenames)) 
assert sp.issparse(X_train)     
print("n_samples: %d, n_features: %d" % X_train.shape)
y_train = dataset.target
def benchmark(clf_class, params, name):
    clf = clf_class(**params).fit(X_train, y_train)
Run Code Online (Sandbox Code Playgroud)

python scikit-learn

12
推荐指数
2
解决办法
2万
查看次数

我可以在 postgres ts_vector / ts_query 全文搜索中禁用字典吗?

我需要对机器语言进行文本搜索。如果我使用任何可用的文本搜索词典,ts_vectors 就会搞砸。

前任。move -> 变成 mov 并且我的搜索失败了。

任何想法如何索引非语言单词?

谢谢!

postgresql full-text-search postgresql-9.1

2
推荐指数
1
解决办法
850
查看次数