小编el *_*sem的帖子

pyspark.sql.utils.AnalysisException：找不到数据源：kafka

我正在尝试使用 pyspark 从 kafka 读取流。我使用的是spark版本3.0.0-preview2和 spark-streaming-kafka-0-10_2.12 在此之前我只是统计zookeeper、kafka并创建一个新主题：

/usr/local/kafka/bin/zookeeper-server-start.sh /usr/local/kafka/config/zookeeper.properties 
/usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties
/usr/local/kafka/bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic data_wm

Run Code Online (Sandbox Code Playgroud)

这是我的代码：

import pandas as pd
import os
import findspark
findspark.init("/usr/local/spark")
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("TestApp").getOrCreate()
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "data_wm") \
  .load() 
value = df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

Run Code Online (Sandbox Code Playgroud)

这就是我运行脚本的方式：

sudo --preserve-env=pyspark /usr/local/spark/bin/pyspark --packages org.apache.spark:spark-streaming-kafka-0-10_2.12:3.0.0-preview

作为这个命令的结果，我有这个：

: resolving dependencies :: org.apache.spark#spark-submit-parent-0d7b2a8d-a860-4766-a4c7-141a902d8365;1.0
        confs: [default]
        found org.apache.spark#spark-streaming-kafka-0-10_2.12;3.0.0-preview in …

Run Code Online (Sandbox Code Playgroud)

apache-kafka apache-spark apache-spark-sql pyspark spark-structured-streaming

el *_*sem

2020 02-15

7
推荐指数

1
解决办法

9694
查看次数