从Kafka上的JSON消息创建Spark Streaming中的Spark DataFrame

mas*_*thd 8 scala dataframe apache-kafka apache-spark

我正在Scala中实现Spark Streaming,我从Kafka主题中提取JSON字符串,并希望将它们加载到数据帧中.有没有办法做到这一点,Spark从RDD [String]中推断出自己的架构?

小智 2

在spark 1.4中,您可以尝试以下方法从rdd生成Dataframe:

  val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
  val yourDataFrame = hiveContext.createDataFrame(yourRDD)
Run Code Online (Sandbox Code Playgroud)