小编Tho*_*lut的帖子

全双路最短路径问题的最快实现？

我有一个加权图表30k节点160k边,没有负权重.我想计算从所有节点到其他节点的所有最短路径.我想我不能假设任何特定的启发式来简化问题.

我尝试使用这个Dijkstra C实现http://compprog.wordpress.com/2007/12/01/one-source-shortest-path-dijkstras-algorithm/,这是针对单个最短路径问题,调用函数dijkstras ()我所有的30个节点.你可以想象,这需要很长时间.目前我没有时间自己编写和调试代码,我必须尽快计算这些路径并将它们存储在数据库中,这样我就可以找到另一个更快的解决方案了,你有没有有小费吗？

我必须在最近的8GB内存的macbook pro上运行它,我想找到一个不超过24小时完成计算的解决方案.

非常感谢提前!!

欧亨尼奥

c algorithm implementation dijkstra shortest-path

Eug*_*nio

2011 08-24

7
推荐指数

2
解决办法

5859
查看次数

如何以编程方式查找网址是电子商务网站还是非电子商务网站？

在一个项目中,有一个模块采用URL并确定它是"电子商务"还是"非电子商务"网站.

我尝试了以下方法:

使用Apache mahout,分类:URL --->采取html转储--->预处理html转储a)删除所有html标签

b)删除停止词(也称为常用词),如CDATA,href,value和,等等.

c)训练模型然后测试它.

在我用于训练的params之后

bin/mahout trainclassifier\-i training-data\-o bayes-model \> -type bayes -ng 1

测试:

/bin/mahout testclassifier \
  -d test-data \
  -m bayes-model \
  -type bayes -source hdfs -ng 1 -method sequential

Run Code Online (Sandbox Code Playgroud)

准确度我得到73%,cbayes算法得到52%.

我想通过提取电子商务网站中的信息来改善预处理阶段,如"结帐按钮","付费朋友链接","价格/美元符号","货到付款","30天保证"等文本.

有关如何提取此信息或任何其他方式将网站预测为电子商务或非电子商务的建议吗？

java classification machine-learning mahout

gee*_*eek

2012 01-22

6
推荐指数

1
解决办法

418
查看次数

在hadoop中批量重命名

如何重命名hdfs目录中的所有文件以获得.lzo扩展名？.lzo.index不应重命名文件.

例如,此目录列表:

file0.lzo file0.lzo.index file0.lzo_copy_1 
Run Code Online (Sandbox Code Playgroud)

可以重命名为:

file0.lzo file0.lzo.index file0.lzo_copy_1.lzo 
Run Code Online (Sandbox Code Playgroud)

这些文件是lzo压缩的,我需要它们才能让.lzohadoop识别扩展名.

bash hadoop file-rename

bee*_*alo

2013 02-07

6
推荐指数

2
解决办法

9776
查看次数

为什么IDEA无法识别Spark jar文件？

我已经下载了Spark的源代码，按照官方文档解压构建如下：

wget http://ftp.tc.edu.tw/pub/Apache/spark/spark-1.2.0/spark-1.2.0.tgz .
tar xzf spark-1.2.0.tgz
cd spark-1.2.0
mvn -Pyarn -Phadoop-2.2 -Dscala-2.11 -DskipTests clean package

Run Code Online (Sandbox Code Playgroud)

最后我将程序集 jar 文件传输到本地：

scp root@host:/home/workspace/spark-1.2.0/assembly/target/scala-2.11/spark-assembly-1.2.0-hadoop2.2.0.jar ~

Run Code Online (Sandbox Code Playgroud)

我打算将这个 jar 文件导入到我在 Intellij Idea 中的项目中，但是 IDE 无法识别这个 jar，并且抛出了一个错误：'IDEA 无法确定所选项目包含的文件类型。从列表中选择适当的类别。，如下图所示：

在 Intellij Idea 中导入 jar 时出错

不好的是，我的编辑窗口有很多语法错误，都是和Spark包和Hadoop包相关的，而不管上面提到的语法错误，在这种情况下项目都可以成功构建。

聚苯乙烯

我 100% 确定我的其他一些 jar 文件（例如在 .m2 目录中）可以正常导入而不会出现上述错误/警告。
如果我将相同的 jar 文件导入 Eclipse，它会被成功识别。我已经在 IDEA-13 和 IDEA-14 中测试了这个 jar，但都失败了。
通过jar -tf XXX.jar正常工作查看此 jar 的内容。
将这个有问题的 .jar 文件添加到我的项目中后，我什至无法查看 jar 文件的内容。

这是一个普通的 .jar 文件的样子：

我已经在BaiDu_YunFile上传了这个 jar ，谁能给我一些想法？非常感谢！

jar intellij-idea apache-spark

Jud*_*ing

2015 02-04

6
推荐指数

1
解决办法

3488
查看次数

Apache Spark架构

试图找到有关Apache Spark内部架构的完整文档,但没有结果.

例如,我正在尝试理解下一件事:假设我们在HDFS上有1Tb文本文件(群集中有3个节点,复制因子为1).该文件将被分配到128Mb块中,每个块将仅存储在一个节点上.我们在这些节点上运行Spark Workers.我知道Spark正在尝试使用存储在同一节点上的HDFS中的数据(以避免网络I/O).例如,我正试图在这个1Tb文本文件中进行单词计数.

我在这里有下一个问题:

Spark会将chuck(128Mb)加载到RAM中,计算单词,然后将其从内存中删除并按顺序执行吗？如果没有可用内存怎么办？
什么时候Spark会在HDFS上使用非本地数据？
如果我需要做更复杂的任务,当每个Worker上的每次迭代的结果需要转移到所有其他Worker(洗牌？)时,我是否需要自己将它们写入HDFS然后读取它们怎么办？例如,我无法理解K-means聚类或Gradient下降如何在Spark上运行.

我将非常感谢Apache Spark架构指南的任何链接.

bigdata hdfs apache-spark

Vit*_*t D

2015 06-11

6
推荐指数

2
解决办法

1735
查看次数

用于小型集合上的集合成员资格查询的快速空间高效数据结构

我正在尝试为固定大小的集合创建一个数据结构，该数据结构应支持以下操作：

查询某个元素是否在集合中（误报可以，误报不行）
将集合中的一个元素替换为另一个元素

就我而言，集合的大小可能非常小（4-16 个元素），但查找必须尽可能快并读取尽可能少的位。此外，它还需要节省空间。替换（即操作 2）可能很少。我研究了以下选项：

布隆过滤器：这是标准解决方案。但删除元素比较困难，操作2的实现也比较困难。
计算布隆过滤器：空间需求比标准布隆过滤器高得多（约 3-4 倍），但 false +ve 率不会降低。
简单地存储所有元素的哈希列表：对于类似的空间要求，与计算布隆过滤器相比，提供更好的错误率，但查找成本很高（在最坏的情况下，将查找所有位）。
先前关于位置的完美散列的想法：我不知道关于小元素集的快速完美散列。

附加信息：

元素是 64 位数字。

关于如何解决这个问题有什么想法吗？

language-agnostic algorithm hash set data-structures

Sub*_*Das

2013 10-11

5
推荐指数

2
解决办法

4552
查看次数

可微的最大值和最小值

我需要最大值和最小值的近似值。由于最大值和最小值不可微，我正在寻找它的可微近似。

有人知道吗？例如我需要最小化以下内容：

[max (a - max_{x\in c}(x) )^2 + (a - max_{x\in d}(x) )^2]

statistics optimization machine-learning calculus

use*_*593

2013 10-29

5
推荐指数

1
解决办法

4459
查看次数

Hortonworks Ranger凭据

我在带有两个节点的Windows服务器上安装了HDP msi安装程序.安装后,我没有使用或不使用有效凭据访问Ranger Portal.如何更改HDP 2.0中的Ranger凭据？

hortonworks-data-platform

Ren*_*amy

2015 02-18

5
推荐指数

1
解决办法

1807
查看次数

Namenode恢复,namenode恢复如何工作？

在hadoop生态系统中,我们有NameNode和SecondaryNameNode,NameNode负责管理在集群中所有可用的数据,所以我的问题是,当NameNode出现故障的生态系统如何更换,并与其他恢复它NameNode？

hadoop hdfs

twi*_*wid

2013 06-30

3
推荐指数

1
解决办法

4756
查看次数

如何在一行中打印阵列的所有内容？

public class Myname {
  public static void main(String args[]){

    Letter s = new Letter(); s.setCaracter("s");
    Letter e = new Letter(); e.setCaracter("e");
    Letter a = new Letter(); a.setCaracter("a");
    Letter r = new Letter(); r.setCaracter("r");
    Letter y = new Letter(); y.setCaracter("y");
    Letter o = new Letter(); o.setCaracter("o");
    Letter u = new Letter(); u.setCaracter("u");
    Letter n = new Letter(); n.setCaracter("n");
    Letter g = new Letter(); g.setCaracter("g"); 

    Letter name[] = new Letter[10];

    name[0] = s;
    name[1] = e;
    name[2] = a;
    name[3] = r; …

Run Code Online (Sandbox Code Playgroud)

java

Mac*_*Mac

2013 08-26

3
推荐指数

1
解决办法

2798
查看次数