我正在尝试使用 Kafka 执行 Spark 流作业,但是在使用 Eclipse 执行我的课程时遇到了问题
在我的主类“JavaDirectKafkaWordCount.class”中,我用我的 kafka 参数创建了我的 JavaInputDStream,我正在尝试计算从 kafka 主题中读取的单词数
JavaInputDStream<ConsumerRecord<String, String>> messages = KafkaUtils.createDirectStream(
jssc,
LocationStrategies.PreferConsistent(),
ConsumerStrategies.Subscribe(topicsSet, kafkaParams));
// Get the lines, split them into words, count the words and print
JavaDStream<String> lines = messages.map(ConsumerRecord::value);
JavaDStream<String> words = lines.flatMap(x -> Arrays.asList(SPACE.split(x)).iterator());
JavaPairDStream<String, Integer> wordCounts = words.mapToPair(s -> new Tuple2<>(s, 1))
.reduceByKey((i1, i2) -> i1 + i2);
lines.print();
// Start the computation
jssc.start();
jssc.awaitTermination();
}
Run Code Online (Sandbox Code Playgroud)
我收到这个错误
JavaInputDStream<ConsumerRecord<String, String>> messages = KafkaUtils.createDirectStream(
jssc,
LocationStrategies.PreferConsistent(),
ConsumerStrategies.Subscribe(topicsSet, kafkaParams));
// Get …
Run Code Online (Sandbox Code Playgroud) 我已经安装了 spark 发布:spark-2.2.0-bin-hadoop2.7
.
我正在使用Windows 10
操作系统
我的java版本 1.8.0_144
我已经设置了我的环境变量:
SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7
HADOOP_HOME D:\Hadoop ( where I put bin\winutils.exe )
PYSPARK_DRIVER_PYTHON ipython
PYSPARK_DRIVER_PYTHON_OPTS notebook
Run Code Online (Sandbox Code Playgroud)
路径是 D:\spark-2.2.0-bin-hadoop2.7\bin
当我pyspark
从命令行启动时,出现此错误:
ipython is not recognized as an internal or external command
Run Code Online (Sandbox Code Playgroud)
我也尝试设置PYSPARK_DRIVER_PYTHON
,jupyter
但它给了我同样的错误(不被识别为内部或外部命令)。
请问有什么帮助吗?