小编Lon*_*guy的帖子

如何在Java中为单行文本匹配多个正则表达式模式?

假设我有多种模式P1,P2,P3 ,,等等.这些模式是不同的正则表达式模式,以匹配DATE的不同变化.

如何在一段代码中最有效地匹配这些输入文本.

当然,我可以写一个for()来逐个循环这些模式,但是有更好的方法吗?

java regex

11
推荐指数
2
解决办法
4万
查看次数

如何测试内核是否是有效的内核

如果我定义自己的方法来确定我的支持向量机分类器的两个输入实体之间的相似性,从而将其定义为我的内核,我该如何验证它是否确实是一个我可以使用的有效内核?

例如,如果我的输入是字符串,并且我选择的内核是可以说某种字符串距离度量,那么我如何决定是否可以将它用于我的SVM.我知道有一些有效SVM内核的条件.任何人都可以告诉我它们是什么以及如何验证这些条件?

machine-learning data-mining svm

10
推荐指数
3
解决办法
1万
查看次数

什么是Weka中修剪和未修剪的树?

在决策树J48例子中,当我们说树被修剪或未修剪时,有什么区别?

java weka

9
推荐指数
2
解决办法
2万
查看次数

在UNIX中将文件的内容附加到另一个文件的开头

我知道

cat file1 >> file2 
Run Code Online (Sandbox Code Playgroud)

会在file2的末尾附加file1的内容.另一方面,如何在文件2的开头附加file1的内容,而不是在结尾?

实际上,我有一个主文件M,以及目录D中的其他几个文件.我想在目录D中所有文件的开头追加文件M的内容.

unix linux shell

9
推荐指数
2
解决办法
1万
查看次数

相关系数实际上代表什么

相关系数直观意味着什么?如果我有一系列X然后是一系列Y,并且如果我将这两个输入到Weka多层感知器中,将Y作为输出并将X作为输入,则得到相关系数为0.76.这直观地代表了什么,以及我如何向商人或非技术人员解释这一点?

math statistics machine-learning weka

8
推荐指数
1
解决办法
6万
查看次数

命名实体识别与解析之间的区别?

命名实体识别和命名实体解析之间有什么区别?会欣赏一个实际的例子.

nlp named-entity-recognition named-entity-extraction

8
推荐指数
1
解决办法
2376
查看次数

XSSFWorkbook需要花费大量时间来加载

我使用以下代码:

File file = new File("abc.xlsx");
InputStream st = new FileInputStream(file);
XSSFWorkbook wb = new XSSFWorkbook(st);
Run Code Online (Sandbox Code Playgroud)

xlsx文件本身有25,000行,每行包含500列内容.在调试过程中,我看到我创建XSSFWorkbook的第三行,需要花费大量时间(1小时!)才能完成此语句.

有没有更好的方法来访问原始xlsx文件的值?

java excel optimization apache-poi xssf

8
推荐指数
1
解决办法
2万
查看次数

PIG local和mapreduce模式之间的区别

在本地运行PIG脚本和在mapreduce上运行PIG脚本有什么区别?我理解mapreduce模式是在安装了hdfs的集群上运行它.这是否意味着本地模式不需要HDFS,因此即使mapreduce作业也不会被触发?有什么区别,你什么时候对方?

hadoop mapreduce apache-pig hdfs

8
推荐指数
2
解决办法
6410
查看次数

numpy.transpose如何为这个例子工作?

我很难理解numpy.transpose实际上是如何工作的.例如

a_value = array([[[0, 1],
                  [2, 3]],

                 [[4, 5],
                  [6, 7]]])
Run Code Online (Sandbox Code Playgroud)

当我这样做的时候

np.transpose(a_value, (2, 1, 0))
Run Code Online (Sandbox Code Playgroud)

我明白了

array([[[0, 4],
        [2, 6]],

       [[1, 5],
        [3, 7]]])
Run Code Online (Sandbox Code Playgroud)

如何手动导出此转置?我需要在上述情况下直观地理解公式或步骤,以便我可以将其推广到更高的维度.

python transpose numpy

8
推荐指数
1
解决办法
5218
查看次数

从头开始实施自定义凝聚算法

我知道凝聚聚类算法,它以每个数据点作为单个聚类开始然后将点组合成聚类的方式.

现在,我有一个n维空间和几个数据点,每个维度都有值.我想根据业务规则聚类两个点/集群,如:

  • 如果跨越维度1的集群之间的距离<T1,则集群两个点c1和c2,并且跨越维度2的距离<T2,......和跨越维度的距离n <Tn.
  • 如果满足维度1的规则并且满足维度2的规则,则集群它们而不必担心其他维度...

....和类似的自定义规则.

另外,我有自己的方法来定义和测量任何特定维度中任意两个聚类之间的距离.维度可能只是字符串,我想定义自己的字符串距离度量.在另一个维度中,它可以包含位置的名称,并且沿着该维度的两个点之间的距离是命名的位置之间的地理距离,对于其他维度也是如此.

是否有框架/软件可以让我实现这种定义自定义距离指标的方式,然后实施凝聚聚类?当然,当在任何时间点都不满足业务规则时,凝聚聚类停止,并且我们在最后的n维空间中形成聚类.

谢谢Abhishek S.

java algorithm math frameworks cluster-analysis

6
推荐指数
1
解决办法
3485
查看次数