小编Pra*_*wan的帖子

理解scikit-learn KMeans返回的"得分"

我在一组文本文档(大约100)上应用了聚类.我将它们转换为Tfidf矢量使用TfIdfVectorizer并提供矢量作为输入scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10).现在当我

model.fit()
print model.score()
Run Code Online (Sandbox Code Playgroud)

在我的向量上,如果所有文本文档非常相似,我会得到一个非常小的值,如果文档非常不同,我得到一个非常大的负值.

它的基本目的是找到哪一组文件是相似的,但是有人可以帮我理解这个model.score()值究竟是什么意味着合适吗?如何使用此值来证明我的发现?

python k-means scikit-learn

18
推荐指数
3
解决办法
2万
查看次数

Keras中是否有DropConnect层?

我在TensorLayer中遇到了DropConnect层的实现:http://tensorlayer.readthedocs.io/en/latest/modules/layers.html 但我需要一个Keras等价物.在Keras上有DropConnect的实现吗?如果没有,是否可以将任何现有的Keras层转换为DropConnect?

python keras

8
推荐指数
1
解决办法
2509
查看次数

Python的集合之间的区别.Counter和nltk.probability.FreqDist

我想计算文本语料库中单词的术语 - 频率.我一直在使用NLTK的word_tokenize,然后是probability.FreqDist一段时间才能完成.word_tokenize返回一个列表,该列表由FreqDist转换为频率分布.但是,我最近在集合(collections.Counter)中遇到了Counter函数,它似乎做了完全相同的事情.FreqDist和Counter都有一个most_common(n)函数,它返回n个最常用的单词.有谁知道这两者之间是否存在差异?一个比另一个快吗?是否存在可以工作而另一个不工作的情况?

python nlp nltk

5
推荐指数
1
解决办法
1844
查看次数

Pandas 数据框列值不区分大小写替换 where <condition>

pandas.DataFrame.replace 是否有不区分大小写的版本?https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.replace.html

我需要根据“where label == a or label == b or label == c”形式的不区分大小写条件替换列中的字符串值。

python replace case-insensitive dataframe pandas

5
推荐指数
2
解决办法
7596
查看次数

NameError:名称“isfile”未定义

我正在尝试创建一个数据集,其中所有数据集都存储在一个文件夹中。我昨天使用了下面的代码来解决任何问题,但似乎不起作用:

> **> Error:**
> ---> 35 data = create_dataframe(paths)
> 
> <ipython-input-21-b5315aeab0d7> in create_dataframe(paths)
>      15     dataframes = {
>      16         (path, file): pd.read_csv(path + file + '.csv')
> ---> 17         for path in paths
>      18         for file in get_files_in_path(path)
>      19     }
> 
> <ipython-input-21-b5315aeab0d7> in <dictcomp>(.0)
>      16         (path, file): pd.read_csv(path + file + '.csv')
>      17         for path in paths
> ---> 18         for file in get_files_in_path(path)
>      19     }
>      20 
> 
> <ipython-input-21-b5315aeab0d7> …
Run Code Online (Sandbox Code Playgroud)

python

0
推荐指数
1
解决办法
2586
查看次数