我在一组文本文档(大约100)上应用了聚类.我将它们转换为Tfidf矢量使用TfIdfVectorizer并提供矢量作为输入scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10).现在当我
model.fit()
print model.score()
Run Code Online (Sandbox Code Playgroud)
在我的向量上,如果所有文本文档非常相似,我会得到一个非常小的值,如果文档非常不同,我得到一个非常大的负值.
它的基本目的是找到哪一组文件是相似的,但是有人可以帮我理解这个model.score()值究竟是什么意味着合适吗?如何使用此值来证明我的发现?
我在TensorLayer中遇到了DropConnect层的实现:http://tensorlayer.readthedocs.io/en/latest/modules/layers.html 但我需要一个Keras等价物.在Keras上有DropConnect的实现吗?如果没有,是否可以将任何现有的Keras层转换为DropConnect?
我想计算文本语料库中单词的术语 - 频率.我一直在使用NLTK的word_tokenize,然后是probability.FreqDist一段时间才能完成.word_tokenize返回一个列表,该列表由FreqDist转换为频率分布.但是,我最近在集合(collections.Counter)中遇到了Counter函数,它似乎做了完全相同的事情.FreqDist和Counter都有一个most_common(n)函数,它返回n个最常用的单词.有谁知道这两者之间是否存在差异?一个比另一个快吗?是否存在可以工作而另一个不工作的情况?
pandas.DataFrame.replace 是否有不区分大小写的版本?https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.replace.html
我需要根据“where label == a or label == b or label == c”形式的不区分大小写条件替换列中的字符串值。
我正在尝试创建一个数据集,其中所有数据集都存储在一个文件夹中。我昨天使用了下面的代码来解决任何问题,但似乎不起作用:
> **> Error:**
> ---> 35 data = create_dataframe(paths)
>
> <ipython-input-21-b5315aeab0d7> in create_dataframe(paths)
> 15 dataframes = {
> 16 (path, file): pd.read_csv(path + file + '.csv')
> ---> 17 for path in paths
> 18 for file in get_files_in_path(path)
> 19 }
>
> <ipython-input-21-b5315aeab0d7> in <dictcomp>(.0)
> 16 (path, file): pd.read_csv(path + file + '.csv')
> 17 for path in paths
> ---> 18 for file in get_files_in_path(path)
> 19 }
> 20
>
> <ipython-input-21-b5315aeab0d7> …Run Code Online (Sandbox Code Playgroud)