小编Sve*_*end的帖子

Docker compose 创建 kafka 主题

问题:无法从 docker-compose 创建主题。在运行测试系统之前,我需要创建 kafka 主题。计划将其用作管道的一部分,因此使用 UI 不是一个选项。

\n

注意:kafka 需要大约 15 秒才能准备好,因此我需要在添加主题之前休眠 15 秒。

\n

可能的解决方案

\n
    \n
  1. 创建一个 shell.sh 文件,其中包含等待 15 秒的命令,然后添加一堆主题
  2. \n
  3. 为其创建一个 dockerfile
  4. \n
  5. 在启动测试系统之前将该 docker 镜像包含在 docker-compose.yml 中
  6. \n
\n

电流

\n
    \n
  1. 创建动物园管理员 - 确定
  2. \n
  3. 创建 kafka1 - 确定
  4. \n
  5. 休息代理-好的
  6. \n
  7. 创建主题<- 问题
  8. \n
  9. 创建 SUT - 确定
  10. \n
\n

当前 docker-compose.yml

\n
version: '2'\nservices:\nzookeeper:\nimage: docker.io/confluentinc/cp-zookeeper:5.4.1\nhostname: zookeeper\ncontainer_name: zookeeper\nports:\n- "2181:2181"\nenvironment:\nZOOKEEPER_CLIENT_PORT: 2181\nZOOKEEPER_TICK_TIME: 2000\n\nKafka1:\nimage: docker.io/confluentinc/cp-enterprise-kafka:5.4.1\nhostname: Kafka1\ncontainer_name: Kafka1\ndepends_on:\n- zookeeper\nports:\n- "9092:9092"\n- "9101:9101"\nenvironment:\nKAFKA_BROKER_ID: 1\nKAFKA_ZOOKEEPER_CONNECT: …
Run Code Online (Sandbox Code Playgroud)

apache-kafka docker docker-compose

32
推荐指数
3
解决办法
4万
查看次数

如何用R读取Cassandra的数据?

我使用的是R 2.14.1和Cassandra 1.2.11,我有一个单独的程序,它将数据写入单个Cassandra表.我没能从R读它们

Cassandra架构定义如下:

create table chosen_samples (id bigint , temperature double, primary key(id))
Run Code Online (Sandbox Code Playgroud)

我首先尝试了RCassandra包(http://www.rforge.net/RCassandra/)

> # install.packages("RCassandra")
> library(RCassandra)
> rc <- RC.connect(host ="192.168.33.10", port = 9160L)
> RC.use(rc, "poc1_samples")
> cs <- RC.read.table(rc, c.family="chosen_samples")
Run Code Online (Sandbox Code Playgroud)

连接似乎成功,但将表解析为数据框失败:

> cs
Error in data.frame(..dfd. = c("@\"ffffff", "@(<cc><cc><cc><cc><cc><cd>",  : 
  duplicate row.names: 
Run Code Online (Sandbox Code Playgroud)

我也尝试过使用JDBC连接器,如下所述:http://www.datastax.com/dev/blog/big-analytics-with-r-cassandra-and-hive

> # install.packages("RJDBC")
> library(RJDBC)
> cassdrv <- JDBC("org.apache.cassandra.cql.jdbc.CassandraDriver", "/Users/svend/dev/libs/cassandra-jdbc-1.2.5.jar", "`")
Run Code Online (Sandbox Code Playgroud)

但是这个失败了:

Error in .jfindClass(as.character(driverClass)[1]) : class not found
Run Code Online (Sandbox Code Playgroud)

即使java驱动程序的位置是正确的

$ ls /Users/svend/dev/libs/cassandra-jdbc-1.2.5.jar
/Users/svend/dev/libs/cassandra-jdbc-1.2.5.jar
Run Code Online (Sandbox Code Playgroud)

r cassandra

16
推荐指数
3
解决办法
1万
查看次数

为什么HDFS中的块太大了?

有人可以解释这个计算并给出清晰的解释吗?

快速计算表明,如果寻道时间约为10 ms且传输速率为100 MB/s,为了使寻道时间为传输时间的1%,我们需要使块大小约为100 MB.默认值实际为64 MB,但许多HDFS安装使用128 MB块.随着新一代磁盘驱动器的传输速度的增长,这个数字将继续向上修正.

hadoop mapreduce hdfs

16
推荐指数
1
解决办法
4146
查看次数

在 AWS Redshift 中取消数组的嵌套

我有一个带有列的表,其中包含如下列表:

id
[1,2,3,10]
[1]
[2,3,4,9]
Run Code Online (Sandbox Code Playgroud)

我想要的结果是一个包含未列出值的表,如下所示:

id2
1
2
3
10
1
2
3
4
9
Run Code Online (Sandbox Code Playgroud)

我尝试了在网上找到的不同解决方案、aws 文档SO 解决方案博客文章,但没有任何运气,因为我在列中有一个列表,而不是 json 对象。任何帮助表示赞赏!

sql amazon-redshift unnest

8
推荐指数
1
解决办法
2万
查看次数

如何依赖"当前"配置中的设置

如何声明2个自定义sbt设置,比如A和B,在Global配置范围内定义B ,其内容依赖于A,在几个配置范围中以不同方式定义A,使得每个配置中B的结果值不同虽然B只定义一次?

考虑下面的示例targetHost,与remote其他配置中的定义不同,scriptContent具体取决于:

object MyBuild  extends Build {

    lazy val remote = config("remote") describedAs ("configuration for remote environement ")

    lazy val targetHost = settingKey[String]("private hostname of master server")

    lazy val scriptContent = settingKey[String]("Some deployment script")

    lazy val root: Project = Project("meme", file(".")).
    settings(
        name := "hello",

        targetHost := "localhost",
        targetHost in remote := "snoopy",

        scriptContent := s"""
            # some bash deployment here
            /usr/local/uberDeploy.sh ${targetHost.value}
        """
    )    
}
Run Code Online (Sandbox Code Playgroud)

我想scriptContent有两个配置范围不同的值,但因为它依赖于targetHost在 …

scala sbt

5
推荐指数
1
解决办法
63
查看次数

Kafka Stream 和 KTable 一对多关系连接

我有一个 kafka 流——比如博客和一个 kafka 表——比如与这些博客相关的评论。来自 kafka 流的键可以映射到 Kafka 表中的多个值,即一个博客可以有多个评论。我想将这两个连接起来并创建一个带有注释 ID 数组的新对象。但是当我加入时,流只包含最后一个评论 ID。是否有任何文档或示例代码可以为我指明如何实现这一目标的正确方向?基本上,是否有任何文档详细说明如何使用 Kafka 流和 Kafka 表进行一对多关系连接?

KStream<Integer, EnrichedBlog> joinedBlogComments = blogsStream.join(commentsTbl,
              (blogId, blog) -> blog.getBlogId(),
              (blog, comment) -> new EnrichedBlog(blog, comment));
Run Code Online (Sandbox Code Playgroud)

所以,而不是评论 - 我需要有一组评论 ID。

apache-kafka apache-kafka-streams

5
推荐指数
1
解决办法
2837
查看次数

从 Kafka 死信队列重试消息的最佳实践是什么

我们使用 Kafka 作为微服务之间的消息传递系统。我们有一个 kafka 消费者收听特定主题,然后将数据发布到另一个主题中,由 Kafka 连接器接收,后者负责将其发布到某个数据存储中。

我们使用 Apache Avro 作为序列化机制。

我们需要启用 DLQ 来为 Kafka Consumer 和 Kafka Connector 添加容错。

由于多种原因,任何消息都可能移动到 DLQ:

  1. 格式错误
  2. 坏数据
  3. 对大量消息进行节流,因此某些消息可能会转移到 DLQ
  4. 由于连接,发布到数据存储失败。

对于上面的第 3 和第 4 点,我们想再次从 DLQ 重试消息。

同样的最佳实践是什么。请指教。

error-handling apache-kafka

1
推荐指数
1
解决办法
1784
查看次数

寻找Kafka-> Storm的示例项目

我正在寻找一个网站,下载包含KAFKA和STORM的示例项目(使用NoSQL应该更好).有人可以帮帮我吗?

最好的祝福

apache-kafka apache-storm

0
推荐指数
1
解决办法
3358
查看次数