我知道类似的问题已经得到了简短的回答,但由于缺乏最低声誉,我无法在那里添加我个人的额外疑问......因此我在这里问它
我想使用 Apache Spark + Kafka 处理 Twitter 数据。我为此创建了一个模式。但是当我运行它时,我收到以下错误。我搜索了很多关于这个错误的地方,但我无法得到我想要的解决方案,或者它不起作用。上次我用较小的内存空间运行Spark,以为内存不足,但仍然得到同样的错误。这是我收到此错误的代码:
from kafka import KafkaConsumer
from pyspark.streaming import StreamingContext
import json
import pandas as pd
from pyspark import SparkConf,SparkContext
from pyspark.streaming.kafka import KafkaUtils
#cd /opt/hadoop-3.2.0-7/hadoop/spark $sudo ./bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.3.0 /opt/twitterConsumer.py
conf = SparkConf()
conf.setAppName("BDA-Twitter-Spark-Kafka")
sc = SparkContext(conf=conf)
sc.setLogLevel("ERROR")
ssc = StreamingContext(sc,1)
KafkaStream = KafkaUtils.createStream(ssc, "localhost:2181",'tks',{"xmas":1}) # directKafkaStream = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers})
KafkaStream.pprint()
print("HERE1")
ssc.start()
ssc.awaitTermination()
Run Code Online (Sandbox Code Playgroud)
我的错误是:
ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)
java.lang.AbstractMethodError
at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99)
at …Run Code Online (Sandbox Code Playgroud)