小编Lon*_*guy的帖子

如何使用Weka创建一个单词包?

我有一个文档语料库,我想将每个文档表示为一个向量.基本上,对于文档中存在的单词和其他单词(存在于语料库中的其他文档中而不是在此特定文档中),向量将具有1,它将具有0.如何为所有人创建此向量Weka中的文件?

使用Weka有快速的方法吗?我还希望Weka删除停用词,以便在创建此向量之前进行一些预处理.

谢谢Abhishek S.

nlp weka

5
推荐指数
1
解决办法
5150
查看次数

测试聚类算法的最佳方法

测试聚类算法的最佳方法是什么?我正在使用带有停止标准的凝聚聚类算法。如何测试集群是否正确形成?

algorithm cluster-analysis hierarchical-clustering

5
推荐指数
1
解决办法
3473
查看次数

对Python脚本所做的更改是否会影响同一文件上正在进行的另一次运行?

假设我已经运行了一个Python脚本.让我们说它在运行时,我打开源代码并将变量的值更改为不同的值.现在,如果我开始运行最新的源代码,在另一个终端中,前一次运行会发生什么变化?

因为我在运行时所做的这一最新变化会不会受到影响?

问题是我想为特定变量的不同值执行程序的并行运行.有更好的方法吗?

python

5
推荐指数
1
解决办法
69
查看次数

将名称字符串编码为唯一编号

我有一大堆名字(数百万).它们中的每一个都有名字,可选的中间名和姓氏.我需要将这些名称编码为唯一代表名称的数字.编码应该是一对一,即名称应该只与一个数字相关联,并且数字应该只与一个名称相关联.

什么是编码的智能方法?我知道根据字母集中的位置(a-> 1,b-> 2 ..等等)标记每个字母的名称很容易,所以像Deepa这样的名字会得到 - > 455161,但是如果'16'真的是16或1和6的组合,我无法弄清楚.

所以,我正在寻找一种智能的名称编码方式.

此外,编码应该使得任何名称的输出数字中的数字位数应该具有固定的数字位数,即,它应该与长度无关.这可能吗?

谢谢Abhishek S.

string algorithm math text

4
推荐指数
2
解决办法
1万
查看次数

分类和回归之间的差异

支持向量机分类器和支持向量机回归机器之间的确切区别是什么?

machine-learning svm weka

4
推荐指数
1
解决办法
3155
查看次数

如何在 Linux 中将一行附加到一个非常大的文件的开头?

我有一个大约 45 GB 的大文本文件,需要在文件的开头和结尾附加一行。实现这一目标的最快方法是什么?我无法访问任何大数据框架,例如 Hadoop 等。

另外,如果我还必须在这个大文件中进行字符串替换,是否有类似的有效方法?

我尝试使用 echo 命令,它确实需要很长时间。

unix linux

4
推荐指数
1
解决办法
7127
查看次数

如何调用其他人编写的R函数?

我从R开始,在互联网上遇到了某人写的这个功能.链接就是这个

https://gist.githubusercontent.com/fawda123/5086859/raw/17fd6d2adec4dbcf5ce750cbd1f3e0f4be9d8b19/nnet_plot_fun.r
Run Code Online (Sandbox Code Playgroud)

现在,如果我想下载此文件然后调用该方法,我应该在哪里下载并存储此文件?如何调用此方法?

r

4
推荐指数
1
解决办法
117
查看次数

csvIterator的参数在Mallet中意味着什么?

我正在使用mallet主题建模示例代码,虽然它运行正常,但我想知道这个语句的参数究竟是什么意思?

instances.addThruPipe(new CsvIterator(new FileReader(dataFile),
                                      "(\\w+)\\s+(\\w+)\\s+(.*)",
                                      3, 2, 1)  // (data, target, name) field indices                    
                     );
Run Code Online (Sandbox Code Playgroud)

nlp machine-learning text-analysis mallet topic-modeling

4
推荐指数
1
解决办法
602
查看次数

此错误是什么意思“ IDF向量不适合”

这就是我打电话给TFIDFVectorizer的方式:

vectorizer = TfidfVectorizer(
                vocabulary=selected_vocabulary,
                stop_words='english',
                use_idf=True,
                norm=norm,
                tokenizer=self.tokenize,
                lowercase=True,
                smooth_idf=True) 
Run Code Online (Sandbox Code Playgroud)

当我打电话时收到此错误

vectorizer.transform(data_to_vectorize)
Run Code Online (Sandbox Code Playgroud)

错误:

  File "/root/anaconda/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 1305, in transform
    return self._tfidf.transform(X, copy=False)

  File "/root/anaconda/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 1024, in transform
    raise ValueError("idf vector not fitted")

ValueError: idf vector not fitted
Run Code Online (Sandbox Code Playgroud)

这个错误在这里意味着什么?

python scikit-learn

4
推荐指数
1
解决办法
2042
查看次数

如何从PySpark中的map方法返回一个空(null?)项?

我正在编写一个map方法

RDD.map(lambda line: my_method(line))
Run Code Online (Sandbox Code Playgroud)

并且基于my_method中的特定条件(假设行以'a'开头),我想要返回一个特定值,否则一起忽略该项.

现在,如果在项目上没有满足条件并且稍后使用另一个条件,则返回-1

RDD.filter() method to remove all the ones with -1.
Run Code Online (Sandbox Code Playgroud)

有什么更好的方法可以通过从my_method返回null来忽略这些项目?

python apache-spark rdd pyspark

4
推荐指数
1
解决办法
4863
查看次数