我有一个加权图表30k节点160k边,没有负权重.我想计算从所有节点到其他节点的所有最短路径.我想我不能假设任何特定的启发式来简化问题.
我尝试使用这个Dijkstra C实现http://compprog.wordpress.com/2007/12/01/one-source-shortest-path-dijkstras-algorithm/,这是针对单个最短路径问题,调用函数dijkstras ()我所有的30个节点.你可以想象,这需要很长时间.目前我没有时间自己编写和调试代码,我必须尽快计算这些路径并将它们存储在数据库中,这样我就可以找到另一个更快的解决方案了,你有没有有小费吗?
我必须在最近的8GB内存的macbook pro上运行它,我想找到一个不超过24小时完成计算的解决方案.
非常感谢提前!!
欧亨尼奥
在一个项目中,有一个模块采用URL并确定它是"电子商务"还是"非电子商务"网站.
我尝试了以下方法:
使用Apache mahout,分类:URL --->采取html转储--->预处理html转储a)删除所有html标签
b)删除停止词(也称为常用词),如CDATA,href,value和,等等.
c)训练模型然后测试它.
在我用于训练的params之后
bin/mahout trainclassifier\-i training-data\-o bayes-model \> -type bayes -ng 1
测试:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Run Code Online (Sandbox Code Playgroud)
准确度我得到73%,cbayes算法得到52%.
我想通过提取电子商务网站中的信息来改善预处理阶段,如"结帐按钮","付费朋友链接","价格/美元符号","货到付款","30天保证"等文本.
有关如何提取此信息或任何其他方式将网站预测为电子商务或非电子商务的建议吗?
如何重命名hdfs目录中的所有文件以获得.lzo
扩展名?.lzo.index
不应重命名文件.
例如,此目录列表:
Run Code Online (Sandbox Code Playgroud)file0.lzo file0.lzo.index file0.lzo_copy_1
可以重命名为:
Run Code Online (Sandbox Code Playgroud)file0.lzo file0.lzo.index file0.lzo_copy_1.lzo
这些文件是lzo压缩的,我需要它们才能让.lzo
hadoop识别扩展名.
我已经下载了Spark的源代码,按照官方文档解压构建如下:
wget http://ftp.tc.edu.tw/pub/Apache/spark/spark-1.2.0/spark-1.2.0.tgz .
tar xzf spark-1.2.0.tgz
cd spark-1.2.0
mvn -Pyarn -Phadoop-2.2 -Dscala-2.11 -DskipTests clean package
Run Code Online (Sandbox Code Playgroud)
最后我将程序集 jar 文件传输到本地:
scp root@host:/home/workspace/spark-1.2.0/assembly/target/scala-2.11/spark-assembly-1.2.0-hadoop2.2.0.jar ~
Run Code Online (Sandbox Code Playgroud)
我打算将这个 jar 文件导入到我在 Intellij Idea 中的项目中,但是 IDE 无法识别这个 jar,并且抛出了一个错误:'IDEA 无法确定所选项目包含的文件类型。从列表中选择适当的类别。,如下图所示:
不好的是,我的编辑窗口有很多语法错误,都是和Spark包和Hadoop包相关的,而不管上面提到的语法错误,在这种情况下项目都可以成功构建。
聚苯乙烯
我 100% 确定我的其他一些 jar 文件(例如在 .m2 目录中)可以正常导入而不会出现上述错误/警告。
如果我将相同的 jar 文件导入 Eclipse,它会被成功识别。我已经在 IDEA-13 和 IDEA-14 中测试了这个 jar,但都失败了。
通过jar -tf XXX.jar
正常工作查看此 jar 的内容。
将这个有问题的 .jar 文件添加到我的项目中后,我什至无法查看 jar 文件的内容。
这是一个普通的 .jar 文件的样子:
我已经在BaiDu_YunFile上传了这个 jar ,谁能给我一些想法?非常感谢!
试图找到有关Apache Spark内部架构的完整文档,但没有结果.
例如,我正在尝试理解下一件事:假设我们在HDFS上有1Tb文本文件(群集中有3个节点,复制因子为1).该文件将被分配到128Mb块中,每个块将仅存储在一个节点上.我们在这些节点上运行Spark Workers.我知道Spark正在尝试使用存储在同一节点上的HDFS中的数据(以避免网络I/O).例如,我正试图在这个1Tb文本文件中进行单词计数.
我在这里有下一个问题:
我将非常感谢Apache Spark架构指南的任何链接.
我正在尝试为固定大小的集合创建一个数据结构,该数据结构应支持以下操作:
就我而言,集合的大小可能非常小(4-16 个元素),但查找必须尽可能快并读取尽可能少的位。此外,它还需要节省空间。替换(即操作 2)可能很少。我研究了以下选项:
附加信息:
关于如何解决这个问题有什么想法吗?
我需要最大值和最小值的近似值。由于最大值和最小值不可微,我正在寻找它的可微近似。
有人知道吗?例如我需要最小化以下内容:
[max (a - max_{x\in c}(x) )^2 + (a - max_{x\in d}(x) )^2]
我在带有两个节点的Windows服务器上安装了HDP msi安装程序.安装后,我没有使用或不使用有效凭据访问Ranger Portal.如何更改HDP 2.0中的Ranger凭据?
在hadoop
生态系统中,我们有NameNode
和SecondaryNameNode
,NameNode
负责管理在集群中所有可用的数据,所以我的问题是,当NameNode
出现故障的生态系统如何更换,并与其他恢复它NameNode
?
public class Myname {
public static void main(String args[]){
Letter s = new Letter(); s.setCaracter("s");
Letter e = new Letter(); e.setCaracter("e");
Letter a = new Letter(); a.setCaracter("a");
Letter r = new Letter(); r.setCaracter("r");
Letter y = new Letter(); y.setCaracter("y");
Letter o = new Letter(); o.setCaracter("o");
Letter u = new Letter(); u.setCaracter("u");
Letter n = new Letter(); n.setCaracter("n");
Letter g = new Letter(); g.setCaracter("g");
Letter name[] = new Letter[10];
name[0] = s;
name[1] = e;
name[2] = a;
name[3] = r; …
Run Code Online (Sandbox Code Playgroud) algorithm ×2
apache-spark ×2
hadoop ×2
hdfs ×2
java ×2
bash ×1
bigdata ×1
c ×1
calculus ×1
dijkstra ×1
file-rename ×1
hash ×1
jar ×1
mahout ×1
optimization ×1
set ×1
statistics ×1