小编bho*_*ass的帖子

每个kinesis碎片多个消费者

我读过每个kinesis流可以有多个消费者应用程序.

http://docs.aws.amazon.com/kinesis/latest/dev/developing-consumers-with-kcl.html

但是,我听说你每个碎片只能使用消费者.这是真的?我没有找到任何支持这一点的文档,也无法想象如果多个消费者正在从同一个流中读取数据.当然,这并不意味着生产者需要为不同的消费者重复不同分片中的内容.

sharding consumer amazon-kinesis

14
推荐指数
2
解决办法
1万
查看次数

需要在`model.evaluate()`之前编译Keras模型

我打开一个Keras从模型以.json.hdf5文件.当我调用时model.evaluate(),它返回一个错误:

您必须在训练/测试之前编译模型.使用`model.compile(优化器,丢失)

为什么我需要编译才能运行evaluate()

要添加,模型可以predict()毫无问题地传递.

keras

12
推荐指数
1
解决办法
9727
查看次数

如何解释RDD.treeAggregate

我在Apache Spark代码源中遇到了这一行

val (gradientSum, lossSum, miniBatchSize) = data
    .sample(false, miniBatchFraction, 42 + i)
    .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))(
      seqOp = (c, v) => {
        // c: (grad, loss, count), v: (label, features)
        val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
        (c._1, c._2 + l, c._3 + 1)
      },
      combOp = (c1, c2) => {
        // c: (grad, loss, count)
        (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
      }
    )
Run Code Online (Sandbox Code Playgroud)

我读这个有多个麻烦:

  • 首先,我在网上找不到任何可以解释确切treeAggregate工作方式的内容,这些内容的含义是什么.
  • 其次,这里.treeAggregate的方法名称似乎有两个()().这意味着什么?这是一些我不理解的特殊scala语法.
  • 最后,我看到seqOp和comboOp都返回一个3元素元组,它与预期的左侧变量匹配,但实际返回了哪一个?

这个陈述必须非常先进.我无法开始破译这一点.

scala distributed-computing apache-spark rdd

11
推荐指数
1
解决办法
5768
查看次数

为什么在单个索引numpy数组的形状中有一个额外的逗号

一个numpy数组a a = numpy.arange(12)

形状a.shape =(12,)

为什么我们需要逗号?形状(12)是为其他东西保留的吗?

arrays numpy

11
推荐指数
2
解决办法
2323
查看次数

zookeeper客户端不提供CLI"禁用jline支持"消息

我刚刚起床CDH 5.4并安装了zookeeper.之前我曾多次成功使用过zkCli.这次命令行启动在到达提示符之前停止

Welcome to ZooKeeper!
JLine support is disabled
2015-05-04 18:18:33,936 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)
2015-05-04 18:18:33,952 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@852] - Socket connection established to localhost/127.0.0.1:2181, initiating session
2015-05-04 18:18:33,985 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@1235] - Session establishment complete on server localhost/127.0.0.1:2181, sessionid = 0x34d12349d0a15cf, negotiated timeout = 30000

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
Run Code Online (Sandbox Code Playgroud)

我知道通常的打印输出是启用了JLine支持

是什么让它陷入困境?我没有看到任何方法来改变这个Cloudera管理器配置页面.

java hadoop jline cloudera apache-zookeeper

10
推荐指数
1
解决办法
4784
查看次数

np.eye(n)[nparray] 是什么意思?

我正在浏览一些代码

y_enc = np.eye(21)[label]
Run Code Online (Sandbox Code Playgroud)

其中 label 是形状 (224, 224) 的 ndarray y_enc 是形状 (224, 224, 21) 的 ndarray

即使打印了形状,我也无法理解这句话。np.eye 应该生成一个维度为 21 x 21 的对角矩阵。 [label] 跟随它是什么意思?

numpy

9
推荐指数
1
解决办法
2万
查看次数

火花读大文件

这可能是一个愚蠢的问题.我想确保我理解正确.

当你在一个巨大的文件(400GB)中进入一个集群,集合执行器内存只有大约120GB时,Spark似乎永远在读.它不会崩溃,也不会启动第一个地图作业.

我认为发生的事情是,Spark通过大文件作为流读取,并在执行程序内存不足时开始丢弃旧行.当.map代码的执行开始时,这显然可能是一个问题,因为执行程序jvm将再次从头开始读回文件.我想知道,Spark是否以某种方式将数据泄漏到硬盘驱动器上,类似于随机溢出机制.

请注意,我不是指缓存过程.这与使用sc.textFile(filename)的初始读取有关

memory-management apache-spark

7
推荐指数
1
解决办法
1万
查看次数

无法在ubuntu 14.04上安装mvn 3.3.3

我正在使用Ubuntu 14.04.我需要跑mvn 3.3.3.目前,安装的mvn版本为3.0.5.当我进入

sudo apt-get install maven

它说 maven is already the newest version

有没有办法强制安装mvn 3.3.3?

ubuntu maven

7
推荐指数
2
解决办法
6466
查看次数

如何设置cassandra读写一致性

我找不到这方面的文档。我知道cqlsh中有一致性命令,但是读写一致性没有区别。我如何为读写设置不同的一致性级别?

此外,还提到了“默认”一致性级别。默认设置在哪里?是读还是写?

consistency cassandra

7
推荐指数
2
解决办法
2万
查看次数

你什么时候在 keras 中使用 Input shape 和 batch_shape?

我没有找到解释 keras 输入的 API。

什么时候应该使用 shape 属性与 batch_shape 属性?

shape keras

6
推荐指数
1
解决办法
4852
查看次数