小编rak*_*shr的帖子

Hadoop namenode:单点故障

Hadoop架构中的Namenode是单点故障.

拥有大型Hadoop集群的人如何应对这个问题?

是否有一个行业认可的解决方案运行良好,其中一个辅助Namenode接管以防主要的一个失败?

hadoop mapreduce hdfs hadoop-yarn hadoop2

25
推荐指数
2
解决办法
1万
查看次数

Hadoop复制一个目录?

是否有可以将整个本地目录复制到HDFS的HDFS API?我找到了一个用于复制文件的API,但有一个用于目录吗?

hadoop hdfs

24
推荐指数
2
解决办法
7万
查看次数

Berkeleydb - B树与哈希表

我试图理解在使用BerkeleyDB时应该选择哪种访问方法:B-Tree与HashTable.Hashtable提供O(1)查找,但插入是昂贵的(使用线性/可扩展散列我们得到分摊O(1)插入).但B-Trees提供log N(base B)查找和插入时间.B-Tree还可以支持范围查询并允许按排序顺序进行访问.

  1. 除了这些考虑因素还应考虑其他因素吗?
  2. 如果我不需要支持范围查询,我可以使用Hashtable访问方法吗?

b-tree berkeley-db hashtable

7
推荐指数
2
解决办法
8322
查看次数

找到BST中最大的子树

给定一个二叉树,我想找出其中最大的子树BST.

天真的方法:

我有一个天真的方法,我访问树的每个节点,并将此节点传递给isBST函数.如果它是BST,我还将跟踪子树中的节点数.

有比这更好的方法吗?

algorithm tree binary-tree

6
推荐指数
3
解决办法
7695
查看次数

Java BufferedWriter close()

假设我有以下代码片段:

operation1();
bw.close();
operation2();
Run Code Online (Sandbox Code Playgroud)

当我BufferedReader.close()从我的代码调用时,我假设我的JVM进行系统调用,以确保缓冲区已被刷新并写入磁盘.我想知道是否close()等待系统调用来完成其操作,或者它是否继续进行而operation2()无需等待close()完成.

为了重新解释我的问题,当我这样做时,我operation2()能否认为bw.close()已成功完成?

java file-io bufferedwriter

4
推荐指数
1
解决办法
7653
查看次数

N-ary树 - 是对称的还是不对称的

给定一个N元树,找出它是否与通过树的根节点绘制的线对称.在二叉树的情况下很容易做到这一点.然而对于N-ary树来说似乎很难

algorithm tree data-structures

3
推荐指数
1
解决办法
3701
查看次数

hadoop +每个减速机的一把钥匙

在Hadoop中是否有一种方法可以确保每个reducer只获得映射器输出的一个键?

hadoop

3
推荐指数
1
解决办法
5384
查看次数

文件中的时间差异

我有这种格式的文件

02:20:25
02:21:00
02:22:54
02:23:28 
02:29:30 
....
Run Code Online (Sandbox Code Playgroud)

我需要计算两个连续行之间的时间差.有没有办法在shell脚本/ awk中执行此操作?

shell awk

3
推荐指数
1
解决办法
3295
查看次数

用于匹配 S3 文件和目录的正则表达式

我有以下用于匹配S3URL 的模式

Pattern.compile("^s3://([^/]+)/(.*?([^/]+))$");
Run Code Online (Sandbox Code Playgroud)

这匹配

s3://bucket/path/key
Run Code Online (Sandbox Code Playgroud)

但不匹配目录

s3://bucket/path/directory/
Run Code Online (Sandbox Code Playgroud)

有没有一种简单的方法可以更改pattern来匹配目录?

java regex

3
推荐指数
1
解决办法
2万
查看次数

避免在scala中使用可变变量

我有一段这样的代码

def filter(t: String) : Boolean = {
    var found = false;
    for(s <- listofStrings) {
      if ( t.contains(s)) { found = true}
    }
    found
  }
Run Code Online (Sandbox Code Playgroud)

编译器发出警告,说明使用可变变量并不是一种好的做法.我该如何避免这种情况?

免责声明:我在作业中使用了此代码的变体,并完成了提交.我想知道正确的做法是什么

for-loop scala

2
推荐指数
1
解决办法
725
查看次数

Hadoop - 分布式缓存中的大文件

我有一个4 GB的文件,我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试启动的重大延迟.具体来说,我提交作业的时间(通过job.waitForCompletion())与第一张地图开始的时间之间存在显着延迟.

我想知道在DistributedCache中使用大文件的副作用是什么.复制分布式缓存上的文件多少次?群集中的节点数是否会对此产生影响?

(我的群集在非常强大的计算机上运行了大约13个节点,每台计算机可以容纳近10个映射插槽.)

谢谢

hadoop distributed-cache

1
推荐指数
1
解决办法
1313
查看次数