小编bho_ass的帖子

每个kinesis碎片多个消费者

我读过每个kinesis流可以有多个消费者应用程序.

http://docs.aws.amazon.com/kinesis/latest/dev/developing-consumers-with-kcl.html

但是,我听说你每个碎片只能使用消费者.这是真的？我没有找到任何支持这一点的文档,也无法想象如果多个消费者正在从同一个流中读取数据.当然,这并不意味着生产者需要为不同的消费者重复不同分片中的内容.

sharding consumer amazon-kinesis

14
推荐指数

2
解决办法

1万
查看次数

需要在`model.evaluate()`之前编译Keras模型

我打开一个Keras从模型以.json和.hdf5文件.当我调用时model.evaluate(),它返回一个错误:

您必须在训练/测试之前编译模型.使用`model.compile(优化器,丢失)

为什么我需要编译才能运行evaluate()？

要添加,模型可以predict()毫无问题地传递.

12
推荐指数

1
解决办法

9727
查看次数

如何解释RDD.treeAggregate

我在Apache Spark代码源中遇到了这一行

val (gradientSum, lossSum, miniBatchSize) = data
    .sample(false, miniBatchFraction, 42 + i)
    .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))(
      seqOp = (c, v) => {
        // c: (grad, loss, count), v: (label, features)
        val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
        (c._1, c._2 + l, c._3 + 1)
      },
      combOp = (c1, c2) => {
        // c: (grad, loss, count)
        (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
      }
    )

Run Code Online (Sandbox Code Playgroud)

我读这个有多个麻烦:

首先,我在网上找不到任何可以解释确切treeAggregate工作方式的内容,这些内容的含义是什么.
其次,这里.treeAggregate的方法名称似乎有两个()().这意味着什么？这是一些我不理解的特殊scala语法.
最后,我看到seqOp和comboOp都返回一个3元素元组,它与预期的左侧变量匹配,但实际返回了哪一个？

这个陈述必须非常先进.我无法开始破译这一点.

scala distributed-computing apache-spark rdd

11
推荐指数

1
解决办法

5768
查看次数

为什么在单个索引numpy数组的形状中有一个额外的逗号

一个numpy数组a a = numpy.arange(12)

形状a.shape =(12,)

为什么我们需要逗号？形状(12)是为其他东西保留的吗？

11
推荐指数

2
解决办法

2323
查看次数

zookeeper客户端不提供CLI"禁用jline支持"消息

我刚刚起床CDH 5.4并安装了zookeeper.之前我曾多次成功使用过zkCli.这次命令行启动在到达提示符之前停止

Welcome to ZooKeeper!
JLine support is disabled
2015-05-04 18:18:33,936 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)
2015-05-04 18:18:33,952 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@852] - Socket connection established to localhost/127.0.0.1:2181, initiating session
2015-05-04 18:18:33,985 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@1235] - Session establishment complete on server localhost/127.0.0.1:2181, sessionid = 0x34d12349d0a15cf, negotiated timeout = 30000

WATCHER::

WatchedEvent state:SyncConnected type:None path:null

Run Code Online (Sandbox Code Playgroud)

我知道通常的打印输出是启用了JLine支持

是什么让它陷入困境？我没有看到任何方法来改变这个Cloudera管理器配置页面.

java hadoop jline cloudera apache-zookeeper

10
推荐指数

1
解决办法

4784
查看次数

np.eye(n)[nparray] 是什么意思？

我正在浏览一些代码

y_enc = np.eye(21)[label]

Run Code Online (Sandbox Code Playgroud)

其中 label 是形状 (224, 224) 的 ndarray y_enc 是形状 (224, 224, 21) 的 ndarray

即使打印了形状，我也无法理解这句话。np.eye 应该生成一个维度为 21 x 21 的对角矩阵。 [label] 跟随它是什么意思？

9
推荐指数

1
解决办法

2万
查看次数

火花读大文件

这可能是一个愚蠢的问题.我想确保我理解正确.

当你在一个巨大的文件(400GB)中进入一个集群,集合执行器内存只有大约120GB时,Spark似乎永远在读.它不会崩溃,也不会启动第一个地图作业.

我认为发生的事情是,Spark通过大文件作为流读取,并在执行程序内存不足时开始丢弃旧行.当.map代码的执行开始时,这显然可能是一个问题,因为执行程序jvm将再次从头开始读回文件.我想知道,Spark是否以某种方式将数据泄漏到硬盘驱动器上,类似于随机溢出机制.

请注意,我不是指缓存过程.这与使用sc.textFile(filename)的初始读取有关

memory-management apache-spark

7
推荐指数

1
解决办法

1万
查看次数

无法在ubuntu 14.04上安装mvn 3.3.3

我正在使用Ubuntu 14.04.我需要跑mvn 3.3.3.目前,安装的mvn版本为3.0.5.当我进入

sudo apt-get install maven

它说 maven is already the newest version

有没有办法强制安装mvn 3.3.3？

7
推荐指数

2
解决办法

6466
查看次数

如何设置cassandra读写一致性

我找不到这方面的文档。我知道cqlsh中有一致性命令，但是读写一致性没有区别。我如何为读写设置不同的一致性级别？

此外，还提到了“默认”一致性级别。默认设置在哪里？是读还是写？

consistency cassandra

7
推荐指数

2
解决办法

2万
查看次数

你什么时候在 keras 中使用 Input shape 和 batch_shape？

我没有找到解释 keras 输入的 API。

什么时候应该使用 shape 属性与 batch_shape 属性？

6
推荐指数

1
解决办法

4852
查看次数

标签统计

apache-spark ×2

amazon-kinesis ×1

apache-zookeeper ×1

consistency ×1

distributed-computing ×1

java ×1

memory-management ×1

rdd ×1

«
1
2
»