小编Jac*_*ack的帖子

One of my Spark job needs to access NFS, but there are only 10 nodes were
permitted to access NFS, so if the job was distributed on each Worker nodes(100 nodes),
then access deny exception would happen and the job would failed.

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-standalone

Jac*_*ack

2016 05-30

5
推荐指数

1
解决办法

4569
查看次数

为什么minor GC如此频繁

这是我的JVM参数：

> /usr/local/java/bin/java -Xloggc:log/gc.log -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:PermSize=64m -XX:MaxPermSize=64m -Xss128K -server -Xmn1024m -Xms3027m -Xmx3027m -Dresin.home=/usr/local/resin

Run Code Online (Sandbox Code Playgroud)

我用的是Resin，上面是Resin start JVM参数，下面是我用jstat -gcutil pid 1000 1000时的GC输出

   S0     S1     E      O      P     YGC     YGCT    FGC    FGCT     GCT   

  0.00   1.60  46.21  25.62  21.69  72639  941.082    31    0.275  941.357

  1.51   0.00  51.91  25.63  21.69  72640  941.093    31    0.275  941.368

  0.00   1.87  62.96  25.64  21.69  72641  941.104    31    0.275  941.379

  1.51   0.00  86.39  25.65  21.69  72642  941.114    31    0.275  941.389

  0.00   1.56  94.28  25.65  21.69  72643  941.126    31    0.275 …

Run Code Online (Sandbox Code Playgroud)

java garbage-collection jvm

Jac*_*ack

2012 09-05

4
推荐指数

1
解决办法

6606
查看次数

为什么HBase计数操作这么慢

命令是:

count 'tableName'.

Run Code Online (Sandbox Code Playgroud)

获取整个表的总行数非常慢.

我的情况是:

我有一个主设备和两个从设备,每个节点有16个cpus和16G内存.
我的表只有一个列族,有两列:标题和内容.
标题列最多有100B字节,内容可能有5M字节.
现在该表有1550行,每当我计算行号时,大约需要2分钟.

我很好奇为什么hbase在这个操作上这么慢,我想它甚至比mysql慢.Cassandra在这些操作上比Hbase更快吗？

hbase cassandra

Jac*_*ack

2016 09-01

4
推荐指数

1
解决办法

1533
查看次数

我很困惑,为什么我只能在spark web UI页面中看到一个KafkaReceiver(8080),但我在Kafka中有10个分区,我在spark集群中使用了10个核心,我的代码如下所示:python:kvs = KafkaUtils. createStream(ssc,zkQuorum,"spark-streaming-consumer",{topic:10})我想KafkaReceivers的数字应该是10而不是1.我很困惑.先感谢您!

apache-kafka apache-spark spark-streaming

Jac*_*ack

2015 06-27

4
推荐指数

1
解决办法

638
查看次数

sync/async在Python中插入或更新ElasticSearch

我正在使用ElasticSearch批量Python API,它是否同时提供同步和异步api？

elasticsearch-py

Jac*_*ack

2017 05-02

4
推荐指数

1
解决办法

1137
查看次数

如何启用 ElasticSearch http 访问日志

我用 http 9200 打开了几个客户端节点来切断 ElasticSearch 查询/索引。我想通过 http 9200 记录来自客户端的访问日志，就像 Http-Apache 有 access.log 一样。我应该如何在 ES 中启用它。

elasticsearch

Jac*_*ack

lucky-day

4
推荐指数

1
解决办法

8129
查看次数

如何使两个Spark RDD并行运行

例如，我在代码中创建了两个RDD，如下所示：

val rdd1=sc.esRDD("userIndex1/type1")
val rdd2=sc.esRDD("userIndex2/type2")
val rdd3=rdd1.join(rdd2)
rdd3.foreachPartition{....}

Run Code Online (Sandbox Code Playgroud)

我发现它们是串行执行的，为什么Spark不并行运行它们？我的问题的原因是网络非常慢，生成rdd1需要1小时，生成rdd2也需要1小时。所以我问为什么Spark不同时生成两个RDD。

apache-spark

Jac*_*ack

2016 05-25

4
推荐指数

1
解决办法

2979
查看次数

如何设置Spark Kmeans初始中心

我正在使用 Spark ML 来运行 Kmeans。我有一堆数据和三个现有的中心，例如这三个中心是：[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]. 那么我如何指示 Kmeans 中心是上面的三个向量。我看到 Kmean 对象有种子参数，但种子参数是 long 类型而不是数组。那么我如何告诉 Spark Kmeans 仅使用现有的中心进行聚类。

或者说，我不明白 Spark Kmeans 中种子的含义，我认为种子应该是一个向量数组，在运行聚类之前代表指定的中心。

cluster-analysis machine-learning k-means apache-spark apache-spark-mllib

Jac*_*ack

2017 09-08

3
推荐指数

1
解决办法

3763
查看次数