我在 Spark 中创建简单 RDD 时遇到错误

Sah*_*hil 9 python apache-spark rdd

我正在使用 Jupyter Notebook,刚刚开始学习 Apache Spark,但在创建简单的 RDD 时出现错误:

sc.parallelize([2, 3, 4]).count()
Run Code Online (Sandbox Code Playgroud)

错误是:parallelize() missing 1 required positional argument: 'c' 这种情况发生在每种情况下,就像我尝试一样textFile(""),我发现位置参数丢失了。我有sparkcontext as sc,有人可以帮我解决这个问题吗?

Hah*_*pro 5

您必须初始化 SparkContext。

以下是《学习 Spark:闪电般快速的大数据分析》中的示例代码

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
Run Code Online (Sandbox Code Playgroud)


小智 0

rdd = sc.parallelize([2, 3, 4])
c = rdd.count()
Run Code Online (Sandbox Code Playgroud)

count()方法返回一个long类型值而不是rdd。