小编Sas*_*ter的帖子

使用模式将带有Spark的AVRO消息转换为DataFrame

有没有使用模式转换方式从消息?用户记录的模式文件:

{
  "fields": [
    { "name": "firstName", "type": "string" },
    { "name": "lastName", "type": "string" }
  ],
  "name": "user",
  "type": "record"
}
Run Code Online (Sandbox Code Playgroud)

来自SqlNetworkWordCount示例Kafka,Spark和Avro的代码片段- 第3部分,生成和使用Avro消息来读取消息.

object Injection {
  val parser = new Schema.Parser()
  val schema = parser.parse(getClass.getResourceAsStream("/user_schema.json"))
  val injection: Injection[GenericRecord, Array[Byte]] = GenericAvroCodecs.toBinary(schema)
}

...

messages.foreachRDD((rdd: RDD[(String, Array[Byte])]) => {
  val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext)
  import sqlContext.implicits._

  val df = rdd.map(message => Injection.injection.invert(message._2).get)
    .map(record => User(record.get("firstName").toString, records.get("lastName").toString)).toDF()

  df.show() …
Run Code Online (Sandbox Code Playgroud)

scala avro apache-kafka apache-spark spark-streaming

13
推荐指数
1
解决办法
1万
查看次数

如何在MultiJob插件中传递内部版本号?

多椎插件是伟大的,我想用我的构建过程,但有一个问题我已经解决之前:有三个作业A,B和C SVN触发任务A和B(并行执行)和作业C在A和B完成时开始.作业C需要来自作业A和B的工件作为输入.

          -> Job A (with A.zip) 
Trigger                          -> Job C (use artifacts A.zip and B.zip)
          -> Job B (with B.zip)
Run Code Online (Sandbox Code Playgroud)

使用MultiJob插件设计工作流很容易,但我不知道如何从作业C中的作业A和B获取相应的工件.我可以将构建号传递给作业C(buildNr(A)!= buildNr(B) ))?或者有更聪明的方法来解决这个问题?

continuous-integration hudson build jenkins jenkins-plugins

10
推荐指数
1
解决办法
4694
查看次数

未设置EnvVar SVN_REVISION和SVN_URL

当我使用在Visual SVN服务器上运行的SVN存储库时,未设置环境变量%SVN_REVISION%和%SVN_URL%.所有其他SVN交互工作正常,例如结账和变更检测.使用其他SVN服务器运行该作业也可以.

自由式工作配置:

Repository URL:            http://SERVERNAME:81/svn/Projects/ProjectName__5_9_1_3/trunk
Local module directory:    trunk
Repository depth option:   infinity
Run Code Online (Sandbox Code Playgroud)

在构建操作中输出windows set命令(缺少SVN_REVISION和SVN_URL)

...
SESSIONNAME=RDP-Tcp#0
SystemDrive=C:
SystemRoot=C:\Windows
...
Run Code Online (Sandbox Code Playgroud)

系统信息

  • 詹金斯:v1.531
  • Subversion插件:v1.51
  • JAVA运行时:v1.6.0_35
  • VisualSVN服务器:v2.7

svn jobs visualsvn jenkins

7
推荐指数
1
解决办法
3066
查看次数

Kafka Streams:“更新的集群元数据版本”运行了很长时间

在过去的几个小时里,我的 Kafka Streams 工作试图启动但被Updated cluster metadata version一个非常大的主题所占据:

2018-01-03T13:30:56.871 DEBUG [org.apache.kafka.clients.consumer.KafkaConsumer] - Starting the Kafka consumer
2018-01-03T13:30:56.882 DEBUG [org.apache.kafka.clients.Metadata] - Updated cluster metadata version 1 to Cluster(id = null, nodes = [node2:9092 (id: -2 rack: null), 
  node3:9092 (id: -3 rack: null), node1:9092 (id: -1 rack: null)], partitions = [])
...
2018-01-04T10:10:27.945 DEBUG [org.apache.kafka.clients.NetworkClient] - Sending metadata request (type=MetadataRequest, topics=<ALL>) to node node3:9092 (id: 3 rack: null)
2018-01-04T10:10:27.952 DEBUG [org.apache.kafka.clients.Metadata] - Updated cluster metadata version 704157 to Cluster(id = DmwzpJYRTEGrm8MfjcpXLw, …
Run Code Online (Sandbox Code Playgroud)

apache-kafka apache-kafka-streams

5
推荐指数
0
解决办法
1375
查看次数