小编Jac*_*ack的帖子

在其中一个数据节点关闭之后,Hadoop会做什么

我有10个数据noes和2个名称节点Hadoop集群配置了3个重复项,我想知道如果其中一个数据节点发生故障,hadoop会尝试在其他活动节点上生成丢失的重复数据吗?或者什么都不做(因为还剩下2个复制品).

添加,如果down数据节点在一段时间后返回,该怎么办才能识别该节点上的数据?谢谢!

hadoop

5
推荐指数
1
解决办法
6170
查看次数

Elasticsearch 中二进制数据类型的用例

我正在尝试将二进制数据存储到 Elasticsearch。请教几个问题:

  1. 二进制列很大(50MB),可以存储在ES中吗?
  2. 我还需要从ES获取二进制数据,它会对性能产生多大的影响。
  3. binary patten我可以通过诸如 0000111或 Base64 格式查询二进制列吗?
  4. 人们希望使用 ES 存储二进制数据的真正用例是什么?

elasticsearch

5
推荐指数
0
解决办法
752
查看次数

如何在特定节点上运行Spark作业

例如,我的 Spark 集群有 100 个节点(工作人员),当我运行一项作业时,我只想让它在大约 10 个特定节点上运行,我应该如何实现这一点。顺便说一句,我正在使用 Spark 独立模块。

为什么我需要上述要求:

One of my Spark job needs to access NFS, but there are only 10 nodes were
permitted to access NFS, so if the job was distributed on each Worker nodes(100 nodes),
then access deny exception would happen and the job would failed.
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-standalone

5
推荐指数
1
解决办法
4569
查看次数

为什么minor GC如此频繁

这是我的JVM参数:

> /usr/local/java/bin/java -Xloggc:log/gc.log -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:PermSize=64m -XX:MaxPermSize=64m -Xss128K -server -Xmn1024m -Xms3027m -Xmx3027m -Dresin.home=/usr/local/resin
Run Code Online (Sandbox Code Playgroud)

我用的是Resin,上面是Resin start JVM参数,下面是我用jstat -gcutil pid 1000 1000时的GC输出

   S0     S1     E      O      P     YGC     YGCT    FGC    FGCT     GCT   

  0.00   1.60  46.21  25.62  21.69  72639  941.082    31    0.275  941.357

  1.51   0.00  51.91  25.63  21.69  72640  941.093    31    0.275  941.368

  0.00   1.87  62.96  25.64  21.69  72641  941.104    31    0.275  941.379

  1.51   0.00  86.39  25.65  21.69  72642  941.114    31    0.275  941.389

  0.00   1.56  94.28  25.65  21.69  72643  941.126    31    0.275 …
Run Code Online (Sandbox Code Playgroud)

java garbage-collection jvm

4
推荐指数
1
解决办法
6606
查看次数

为什么HBase计数操作这么慢

命令是:

count 'tableName'. 
Run Code Online (Sandbox Code Playgroud)

获取整个表的总行数非常慢.

我的情况是:

  • 我有一个主设备和两个从设备,每个节点有16个cpus和16G内存.

  • 我的表只有一个列族,有两列:标题和内容.

  • 标题列最多有100B字节,内容可能有5M字节.

  • 现在该表有1550行,每当我计算行号时,大约需要2分钟.

我很好奇为什么hbase在这个操作上这么慢,我想它甚至比mysql慢.Cassandra在这些操作上比Hbase更快吗?

hbase cassandra

4
推荐指数
1
解决办法
1533
查看次数

为什么我只能看到一个火花流kafkaReceiver

我很困惑,为什么我只能在spark web UI页面中看到一个KafkaReceiver(8080),但我在Kafka中有10个分区,我在spark集群中使用了10个核心,我的代码如下所示:python:kvs = KafkaUtils. createStream(ssc,zkQuorum,"spark-streaming-consumer",{topic:10})我想KafkaReceivers的数字应该是10而不是1.我很困惑.先感谢您!

apache-kafka apache-spark spark-streaming

4
推荐指数
1
解决办法
638
查看次数

sync/async在Python中插入或更新ElasticSearch

我正在使用ElasticSearch批量Python API,它是否同时提供同步和异步api?

elasticsearch-py

4
推荐指数
1
解决办法
1137
查看次数

如何启用 ElasticSearch http 访问日志

我用 http 9200 打开了几个客户端节点来切断 ElasticSearch 查询/索引。我想通过 http 9200 记录来自客户端的访问日志,就像 Http-Apache 有 access.log 一样。我应该如何在 ES 中启用它。

elasticsearch

4
推荐指数
1
解决办法
8129
查看次数

如何使两个Spark RDD并行运行

例如,我在代码中创建了两个RDD,如下所示:

val rdd1=sc.esRDD("userIndex1/type1")
val rdd2=sc.esRDD("userIndex2/type2")
val rdd3=rdd1.join(rdd2)
rdd3.foreachPartition{....}
Run Code Online (Sandbox Code Playgroud)

我发现它们是串行执行的,为什么Spark不并行运行它们?我的问题的原因是网络非常慢,生成rdd1需要1小时,生成rdd2也需要1小时。所以我问为什么Spark不同时生成两个RDD。

apache-spark

4
推荐指数
1
解决办法
2979
查看次数

如何设置Spark Kmeans初始中心

我正在使用 Spark ML 来运行 Kmeans。我有一堆数据和三个现有的中心,例如这三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]. 那么我如何指示 Kmeans 中心是上面的三个向量。我看到 Kmean 对象有种子参数,但种子参数是 long 类型而不是数组。那么我如何告诉 Spark Kmeans 仅使用现有的中心进行聚类。

或者说,我不明白 Spark Kmeans 中种子的含义,我认为种子应该是一个向量数组,在运行聚类之前代表指定的中心。

cluster-analysis machine-learning k-means apache-spark apache-spark-mllib

3
推荐指数
1
解决办法
3763
查看次数